大圣配资 MiniMax上市后编程模子初度更新，智能体“打工”1小时成本1好意思元

最近，市民孙老伯向“新民帮侬忙”反映，位于浦东新区康沈路年家浜路的公交车站上，公交候车椅的高度“参差不齐”，设计存在严重偏差，让乘客们无法安全落座。

2026年春节前夜，MiniMax负责上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”张开密集发布与营销攻势，这款定位为“原生Agent坐蓐级模子”的产物，负责加入这场被业界称为“AI诸神之战”的竞争。

尽管有着编程、器具调用、办公等坐蓐力场景群众SOTA得益，这家在本钱商场备受瞩主义公司却念念抛开参数畛域与模子榜单的简短比拼，而是在科技圈掀开另一种叙事：从头界说Agent2.0时间。

10B激活参数跑出旗舰得益

在编程身手方面，M2.5在泰斗榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%，较上一代权臣普及；在Multi-SWE-Bench等多道话复杂环境中杰出Opus 4.6，达到了行业最佳的水平。更垂危的是，模子展现出“原生Spec身手”——在编码前主动拆解架构与功能野心，更接近着实架构师的责任景况。

器具调用和搜索身手方面，模子大致自动管制复杂任务，在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次蓦地获得了更优的恶果，相较于上一代模子发扬普及20% ，达到了行业顶尖水平。

办公场景中，在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中获得了权臣的身手普及，在测评框架GDPval-MM与主流模子的对比获得了 59.0%的平均胜率。

极致推理重构Agent经济

性能以外，M2.5的另一中枢亮点在于极致的推理速率与成本限度。M2.5-lightning版块支抓100 TPS以上输出速率，港陆证券是主流模子的2倍摆布；输入价钱约0.3好意思元/百万Token，输出约2.4好意思元/百万Token。按每秒输出100 Token诡计，集中运转一小时成本约1好意思元；若按50 Token诡计，成本约0.3好意思元。

这意味着1万好意思元表面上可支抓4个Agent集中责任一年。MiniMax方面合计，当性能与成本不再组成敛迹，Agent畛域化部署的经济模子将发生根柢变化。

亿正策略

在Vibecoding(氛围编程)越来越火确当下，M2.5的极致性价比可谓平直界说了着实宇宙责任王者。

创举Agent RL相沿高速进化

畴昔108天，MiniMax从M2、M2.1迭代至M2.5，在SWE-Bench Verified得益从69.4普及至80.2，逾越弧线在同行中尤为陡峻。团队将这一跃迁归因于大畛域Agent强化学习（RL Scaling）。

其自研Forge框架通过解耦查验引擎与Agent，杀青对任性Agent脚手架和器具的泛化优化，并通过异要领度与树状归并战略杀青约40倍查验加快。同期，在算法层面领受CISPO优化与历程奖励机制，缓解长落魄文场景中的信用分派问题，并将“任务着实耗时”纳入奖励函数，在恶果与反应速率之间获得均衡。