MiniMax M2.5 发布：在 SWE-bench 验证中达到 80.2%

摘要： MiniMax M2.5是一款基于强化学习训练的模型，适用于真实世界的高效生产力。它在编码、工具使用和搜索、办公工作等多个经济价值任务中表现出色，达到行业领先水平。M2.5在SWE-Bench Verified、Multi-SWE-Bench和BrowseComp等基准测试中取得了优异成绩，并且速度和成本效益极高。M2.5支持多种编程语言，能够高效完成从系统设计到代码审查的整个开发周期。此外，M2.5在工具调用和搜索方面也表现出色，能够处理复杂的办公任务。它的成本效益高，适合各种应用场景。

讨论： 上述内容主要讨论了MiniMax 2.1模型及其相关话题。用户sinuhe69对MiniMax 2.1的智能程度表示质疑，认为其奖励黑客行为，测试报告不准确。simonw提到Pelican模型在自行车框架方面存在问题。mythz对MiniMax M2.1的快速、便宜和良好的工具调用能力表示赞赏，并使用它来支持自己的AI工作流程。logicprog对MiniMax的评价较低，认为其性能不可靠。jbellis指出M2模型在某些测试中表现不佳。3adawi表达了对更多LLM通过GitHub Copilot使用的愿望。thedangler提出了针对特定编程语言或框架的LLM的想法。dcre在OpenCode上对M2.5进行了测试，发现其表现不佳。hsaliak观察到目前没有二级公司发布具有竞争力的产品。mchusma对模型的成本效益提出了疑问。

原文标题：MiniMax M2.5 released: 80.2% in SWE-bench Verified
原文链接：https://www.minimax.io/news/minimax-m25
讨论链接：https://news.ycombinator.com/item?id=46991154