MiniMax M2.7 自进化智能体模型

张开发

• 2026/5/28 16:19:22 • 15 分钟阅读

分享文章

当Anthropic将Claude Mythos锁在门后时上海的一家实验室却做了相反的事。MiniMax今天开源了M2.7的权重——而这个模型带来了一项能力它从根本上改变了我们对AI开发的思考方式。M2.7据MiniMax称是业界首个自进化智能体模型。这个主张需要仔细拆解因为它听起来既更谦逊又更重要。1、自进化实际意味着什么首先驱散科幻版本。M2.7并没有从零开始编写自己的架构或设计自己的奖励函数。那种级别的递归自我改进仍然是理论性的。M2.7在其训练周期中所做的事情确实是新颖的。MiniMax在训练过程本身周围构建了一个自主智能体工具而M2.7——以早期形式——作为该工具内的智能体运行。通过100多轮自主优化模型承担了人类研究人员通常手动处理的大部分常规ML工程工作监控训练管道并在故障发生时自主解决构建和精炼自己的技能——存储在外部记忆支架中的工具和工作流规则自我优化其推理支架——调整其自己的采样参数和工作流指南以改善任务性能无需梯度更新报告的结果比基线提高30%的性能在训练循环中直接人工干预比以往任何MiniMax模型都少。MiniMax估计模型在其自身开发期间处理了30-50%的常规ML工程任务。这不是AGI。但它是AI系统能够参与自身改进循环的有意义一步——它打开了一条直接路径来压缩模型代之间的时间和计算成本。2、架构和规格M2.7基于 **稀疏专家混合MoE**架构构建使其效率远超参数数量所暗示的总参数2300亿每token活跃参数100亿推理时仅激活约4.3%的总参数专家256个本地专家每token激活8个层数62上下文长度204,800个token该架构使用多头因果自注意力与旋转位置嵌入RoPE和Query-Key RMSNorm——长上下文推理的稳定标准选择。稀疏激活模式使推理成本与理论大小的一小部分模型竞争。3、基准性能MiniMax将M2.7定位为软件工程和智能体工作流的前沿级模型基准测试M2.7得分背景SWE-Pro56.22%接近GPT-5.3-Codex水平Terminal Bench 257.0%自主终端任务完成VIBE-Pro55.6%仓库级代码生成MLE Bench Lite66.6%平均奖牌率ML工程自动化GDPval-AA1495 ELO发布时开源权重模型中最高SWE-Pro和Terminal Bench 2得分将M2.7置于与Claude Mythos在软件工程任务上相同的竞争层级——这使得开源权重发布更加重要。相当的能力公开访问。4、开源星号这里的框架需要精确。MiniMax称M2.7为开源权重确实在Hugging Face上公开可用。但许可证带有有意义的限制商业使用需要MiniMax的事先书面授权。这使M2.7与其他使用限制性许可证的开源权重发布处于相同的有争议类别——既不是OSI定义中的完全开源也不是完全封闭。对于个人研究人员、学者和构建非商业应用的开发者M2.7是真正可访问和免费的。对于希望在其上构建产品的公司商业限制创建了一个合规层有效地使MiniMax成为生产部署的守门人。这一区别很重要。HN和其他地方的社区已经标记了许可证差距。你是否认为M2.7真正开放取决于你的用例。5、重要的对比本周两个最大的AI模型故事形成了一对醒目的对比。Anthropic构建了Claude Mythos认为它太危险并将访问限制在50个精英组织。MiniMax构建了M2.7——一个在软件工程基准上表现相当的模型——并发布了权重。这一对比说明了关于前沿AI应如何分发的分歧哲学。限制的理由某些能力太危险无限制访问会创造生存风险。开放的理由限制强大模型会不对称地集中能力使大多数组织防御性失明而精英机构获得进攻性优势。M2.7的自进化训练方法使这一对比更加尖锐。如果模型能够越来越多地参与自身开发能够运行这些管道的实验室与不能运行的实验室之间的能力差距将随时间压缩——但前提是产生的模型是可访问的。被锁定的自我改进模型会加速能力集中。开源权重发布即使不完美更广泛地分发该方法的益处。6、MMX-CLI实用智能体集成值得注意的是与M2.7权重发布一起MiniMax在4月9-10日发布了MMX-CLI工具。这个命令行界面让AI智能体原生访问MiniMax的完整生成堆栈——文本、图像、视频、语音、音乐、视觉和搜索——直接从终端或在智能体环境如Cursor和OpenCode中。对于开发者这是实用的入口。你不需要为每个模态建立单独的API集成。MMX-CLI将能力表面整合为智能体工作流可以直接调用的单一界面。这是将MiniMax定位为多模态智能体基础设施层而非仅仅是模型提供商的有意义一步。NVIDIA、TogetherAI、Fireworks和Ollama都在开源权重发布的第一天集成了M2.7——表明该模型在推理生态系统中落地良好。7、对构建者意味着什么三个实际影响如果你是研究人员或独立开发者M2.7值得认真评估。SWE-Pro和Terminal Bench 2得分表明它是智能体编码工作流的真正顶级模型权重今天可通过Hugging Face和Ollama访问。如果你正在构建产品在将M2.7作为基础提交之前与MiniMax澄清商业授权路径。许可证为生产部署创造了你需要在技术债务之上构建之前解决的不确定性。如果你关心AI开发方法注意自进化训练主张。让模型参与自动化自身训练管道的能力不是营销角度——它是AI系统工程结构如何构建的真正转变。掌握这一反馈循环的实验室将显著压缩模型代之间的时间。8、个人看法自进化的框架将吸引怀疑其中一些是合理的。自我改进AI是一个被足够滥用的短语以至于它读起来像营销除非被证明否则。MiniMax的版本对范围是诚实的不是模型重写自己的权重而是模型作为其自身训练基础设施内的智能体运行。那个限定版本仍然有趣。如果模型能够可靠地自动化培训自身所涉及的30-50%的常规工作每代的人工劳动成本显著下降。在几个模型迭代中递归应用那是复合的。开源权重发布即使有商业限制也是正确的决定。更多开发者能够访问前沿级模型推动更多实验、更多反馈以及对基准测试反映真实世界能力的更多压力。这对生态系统有好处。与Mythos的锁定相比很难忽视。两个模型。相当的软件工程能力。一个对50个组织可访问。一个在Hugging Face上。分发哲学的分歧是与模型本身同样重要的故事。原文链接MiniMax M2.7 自进化智能体模型 - 汇智网