
最近,市民孙老伯向“新民帮侬忙”反映,位于浦东新区康沈路年家浜路的公交车站上,公交候车椅的高度“参差不齐”,设计存在严重偏差,让乘客们无法安全落座。

2026年春节前夜,MiniMax负责上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”张开密集发布与营销攻势,这款定位为“原生Agent坐蓐级模子”的产物,负责加入这场被业界称为“AI诸神之战”的竞争。
尽管有着编程、器具调用、办公等坐蓐力场景群众SOTA得益,这家在本钱商场备受瞩主义公司却念念抛开参数畛域与模子榜单的简短比拼,而是在科技圈掀开另一种叙事:从头界说Agent2.0时间。
10B激活参数跑出旗舰得益
在编程身手方面,M2.5在泰斗榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代权臣普及;在Multi-SWE-Bench等多道话复杂环境中杰出Opus 4.6,达到了行业最佳的水平。更垂危的是,模子展现出“原生Spec身手”——在编码前主动拆解架构与功能野心,更接近着实架构师的责任景况。
器具调用和搜索身手方面,模子大致自动管制复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次蓦地获得了更优的恶果,相较于上一代模子发扬普及20% ,达到了行业顶尖水平。

办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中获得了权臣的身手普及,在测评框架GDPval-MM与主流模子的对比获得了 59.0%的平均胜率。
极致推理重构Agent经济
性能以外,M2.5的另一中枢亮点在于极致的推理速率与成本限度。M2.5-lightning版块支抓100 TPS以上输出速率,港陆证券是主流模子的2倍摆布;输入价钱约0.3好意思元/百万Token,输出约2.4好意思元/百万Token。按每秒输出100 Token诡计,集中运转一小时成本约1好意思元;若按50 Token诡计,成本约0.3好意思元。
这意味着1万好意思元表面上可支抓4个Agent集中责任一年。MiniMax方面合计,当性能与成本不再组成敛迹,Agent畛域化部署的经济模子将发生根柢变化。
亿正策略在Vibecoding(氛围编程)越来越火确当下,M2.5的极致性价比可谓平直界说了着实宇宙责任王者。
创举Agent RL相沿高速进化
畴昔108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified得益从69.4普及至80.2,逾越弧线在同行中尤为陡峻。团队将这一跃迁归因于大畛域Agent强化学习(RL Scaling)。
其自研Forge框架通过解耦查验引擎与Agent,杀青对任性Agent脚手架和器具的泛化优化,并通过异要领度与树状归并战略杀青约40倍查验加快。同期,在算法层面领受CISPO优化与历程奖励机制,缓解长落魄文场景中的信用分派问题,并将“任务着实耗时”纳入奖励函数,在恶果与反应速率之间获得均衡。

M2.5已于2月12日在 MiniMax Agent上线,并于13日群众开源支抓土产货化部署。不到一天,来自全宇宙的用户依然在MiniMax Agent上构建了1万多个巨匠,且仍在快速增长。
MiniMax暗意,但愿在抓续普及模子身手的同期大圣配资,构建一个可抓续延伸的Agent生态-Agent Universe。当模子身手、泛化性和成本王人不再是瓶颈,Agent渗入到责任和生涯的各个边缘——从编程、办公到创作、文娱,大幅促进Agentic哄骗的进一步发展。
盛康优配亿正策略广瑞网配资配资网优配网港陆证券提示:文章来自网络,不代表本站观点。