MiniMax M2.5强势突围：性能成本双优，引爆全球Agent需求新热潮-移动智能-发现者网

春节期间，AI领域迎来一匹黑马——MiniMax凭借其新一代模型M2.5在开发者圈掀起热潮。2月20日港股马年首个交易日，MiniMax股价大涨14.52%，市值一度突破3042亿港元。这一资本市场的积极反应，源于M2.5在性能与市场表现上的双重突破，为智能体（Agent）场景的应用落地提供了关键支撑。

过去两年，AI行业聚焦于供给侧技术升级，更强大的模型与更高效的芯片成为主流方向，但Agent相关需求却因技术与成本限制长期被压制。M2.5的推出恰好填补了这一市场空白。作为专为智能体场景设计的生产级旗舰模型，M2.5上线仅12小时便登顶OpenRouter热度榜，一周内以3.07T tokens的周调用量占据平台榜首，这一数据甚至超过Kimi K2.5、GLM-5与DeepSeek V3.2三家的总和。更关键的是，M2.5直接带动了OpenRouter平台100K至1M长文本区间的增量调用需求，而这一区间正是Agent工作流的典型消耗场景。此前，开发者因缺乏能力与成本兼备的模型，难以将现成的Agent工作流落地，M2.5的出现让这一困境迎刃而解。

M2.5的技术实力在多个维度得到验证。在编程领域权威的SWE-Bench Verified评测中，其以80.2%的通过率达到Claude Opus系列水平，并在多语言任务Multi-SWE-Bench上排名第一。知名技术博主Simon Willison的独立测评显示，M2.5在主流模型中位列第三，仅次于Claude Opus 4.5和Gemini 3 Flash，且是所有开源模型中的第一名。执行效率方面，研究机构SemiAnalysis实测表明，在8张H200显卡上，M2.5每GPU每秒可稳定处理约2500个token，即使在处理超1万个token的上下文时，解码速度依然稳定。这些数据直接证明了M2.5在性能上的硬实力。

硅谷开发者生态对M2.5的认可早已显现。早在M2.1模型推出时，AI编程工具新贵Kilo Code便将其设为默认模型，其CEO称M2.1在真实编码工作流中可与前沿模型媲美。此次M2.5全面开源后，模型权重在HuggingFace上线并支持本地部署，Kilo Code第一时间宣布接入，同时OpenCode、OpenClaw、Fireworks、魔搭社区等国内外知名开源Agent应用与工具平台也纷纷跟进。开源社区的密集接入，不仅源于M2.5的技术优势，更因其极具竞争力的定价策略。M2.5推出两个版本：100 TPS快速版输入每百万tokens仅0.3美元、输出2.4美元，50 TPS版本输出价格再降一半，精准落在开源社区的成本接受区间。能力、速度与成本的平衡，让M2.5在OpenRouter上走出近乎指数型的增长曲线。

M2.5的突破并非偶然，其背后是MiniMax从工程底层重新设计的原生Agent强化学习系统——代号Forge。传统RL框架存在工程复杂度高、训练推理一致性维护成本高的问题，Forge通过引入中间件抽象层，将Agent执行逻辑与底层训练推理引擎解耦。Gateway Server作为标准化通信网关隔离高层行为与模型复杂性，Data Pool异步收集训练轨迹，实现生成与训练的解耦。这一设计让开发者无需修改Agent内部代码，即可接入数百种框架、数千种工具调用格式进行训练。在训练效率与稳定性上，Forge通过Prefix Tree Merging方案将训练样本重构为树形结构，消除重复上下文前缀，实现约40倍训练加速并降低显存开销；Windowed FIFO异步调度策略在最大化吞吐量的同时控制样本离策略程度；自研CISPO算法保障MoE模型大规模训练稳定性，并针对Agent长轨迹信用分配难题设计复合奖励机制，解决长程任务的注意力稀释问题。正是这套底层系统，让M2.5能在Kilo、OpenClaw等严苛的Agent框架上稳定运行。

MiniMax的技术迭代速度同样令人瞩目。过去108天内，其陆续推出M2、M2.1、M2.5三款模型，在SWE-Bench Verified榜单上的进步速度远超Claude、GPT、Gemini系列，成为行业迭代最快的模型系列。这一节奏恰好踩中全球Agent需求爆发的窗口期——OpenClaw从默默无闻到席卷全球仅用一两个月，OpenRouter平台上已有上千种同类AI工具和应用生长。在ChatGPT、Claude、Gemini“御三家”之外的新生态中，开发者的评判标准只有一个：模型是否跑得通、用得起。M2.5的出现精准击穿了性能与成本的临界点：能力跻身全球第一梯队，价格仅为主流旗舰模型的十分之一，还支持本地部署。这不仅让MiniMax收获了3T tokens的周调用量，更让开源社区中原本仅存在于Demo中的复杂多Agent系统首次具备大规模商业落地的经济可行性。全球开发者用脚投票的结果，不仅是M2.5模型的增量，更是硅谷下一代开源生态应用的增量，标志着被压制许久的全球Agent需求正迎来真正的爆发时刻。