近日,一款名为MiniMax M3的中国大模型在全球开发者社区引发了广泛讨论。这款模型不仅获得了硅谷重量级人物的公开支持,还在国内外开发者中掀起了实测热潮。从价格争议到性能质疑,再到令人惊艳的实际表现,M3的每一步都牵动着全球AI从业者的神经。
争议首先来自价格调整。许多老用户发现Token Plan的权益缩水,引发了社区的激烈讨论。面对质疑,MiniMax官方迅速回应,推出了补偿方案:老用户权益不变,新用户周限额增加50%。这一举措暂时平息了风波,但真正的考验还在后面——M3的性能究竟如何?
全球开发者很快用实际行动给出了答案。在X平台上,一场"盲测挑战"吸引了大量关注。开发者Victoria Wu用M3、Sonnet 4.6和Opus 4.8生成"鹈鹕骑自行车"的动画,将结果匿名后让网友猜测。评论区几乎一边倒地认为"A太流畅,肯定是Opus",但最终揭晓:A正是M3。这一结果让许多人开始重新审视这款中国模型。
另一位开发者JAZII的测试更加硬核。他要求M3和Opus 4.8用Three.js在HTML中从零构建《我的世界》克隆版。虽然M3耗时略长,但最终代码运行结果"极其接近",这一评价来自对模型要求极为严苛的JAZII本人。X平台上的中文开发者"实践哥minli"则展示了M3的多模态能力:他开发了一款"凡人修仙传"手势对决游戏,M3需要理解复杂视觉手势并完成长程逻辑代码编写,最终Token消耗仅为Claude Sonnet的20%。
AI测评人Thomas Wiegold的3000字实测报告给出了专业评价:"这是我今年测过的最有意思的模型之一。"这种评价并非偶然。在处理长达50页的DeepSeek-V3技术报告时,M3成功梳理出"底层通信与计算重叠"的完整技术链条,逻辑链条无断点。面对MLA结构图,它能准确找出图中动态调度和投影过程对应的数学公式,甚至能指出隐藏约束的视觉位置并详细解释。
更令人印象深刻的是长视频处理能力。当被要求观看1小时57分钟的英伟达GTC主题演讲并撰写3000-4000字深度报道时,M3展现了惊人的处理能力。面对1.15GB的原始视频,它调用ffmpeg进行压缩切段,最终生成的素材清单精确到分钟级,连老黄突然蹦出的中文"太多东西了"都没有遗漏。初稿3500字,40分钟完成,虽然尚未达到专业发稿水平,但提供了一个高质量起点。
M3的出色表现源于其三大核心能力:前沿级编程、100万上下文窗口和原生多模态。这些能力的实现依赖于全新的MiniMax Sparse Attention(MSA)注意力架构。传统注意力机制在处理百万级上下文时计算量爆炸,而MSA通过块级稀疏方式解决了这一瓶颈,使每个token的计算量降至上一代的1/20,预填充加速超过9倍,解码加速超过15倍。
在多模态处理上,M3从训练之初就将文本、图片、视频混合输入,数据管线重构后预训练规模达到100T量级。这种设计使其在Artificial Analysis综合智能指数榜上位列全球第七(开源模型最高),GPQA Diamond科学推理榜以93.2%排进全球前四,GDPval-AA真实任务Agent榜以1670分排全球第五,与Sonnet 4.6仅差6分。在Vals Index多模态榜单上,M3也冲至全球第六,创下国内开源模型最好成绩。
性能提升的同时,MiniMax Code平台也推出了Agent Team新模式。传统AI编程工具常出现任务中断或风格突变问题,而Agent Team将裁判与选手分离:Leader负责理解目标、拆分任务和调度,Worker负责具体执行,Verifier专门挑刺。这种对抗循环由底层状态机引擎控制,实际体验如同与一个能秒回微信同时还在干活的同事合作。
风波过后,全球开发者的目光重新聚焦M3本身。据悉,其权重与完整技术报告将在十天内开源,届时全球开发者将用真实项目为其打分。这款来自中国的模型能否持续惊艳世界,答案即将揭晓。











