Anthropic 正式发布 Claude Opus 4.7:编码能力登顶,但“最强模型“仍被锁在保险柜

张开发
2026/5/18 7:33:31 15 分钟阅读
Anthropic 正式发布 Claude Opus 4.7:编码能力登顶,但“最强模型“仍被锁在保险柜
一、发布概览2026 年 4 月 16 日周四Anthropic 正式推出旗舰模型 Claude Opus 4.7这是距离 2026 年 2 月发布 Claude Opus 4.6 约两个月之后的又一次升级。这一节奏已与 Anthropic 近期的迭代规律一致——Opus 4.7 在 Opus 4.6 发布两个月后到来而 Opus 4.6 也是在 Opus 4.5 发布两个月后推出。本次发布最耐人寻味之处在于 Anthropic 的双轨策略一方面将 Opus 4.7 作为可大规模商用的最强模型推向市场另一方面则公开承认其更强大的Claude Mythos Preview因安全顾虑仍被限制使用。Anthropic 公开承认Opus 4.7 的表现不及 Mythos——那是公司出于安全考虑至今未向公众发布的高能力系统。二、核心能力升级软件工程是绝对主角Opus 4.7 最引人注目的提升集中在软件工程领域。Anthropic 表示Opus 4.7 在高级软件工程方面相比 Opus 4.6 有显著改进尤其在最困难的任务上取得突出进展。关键基准测试成绩根据 Anthropic 及多方媒体整理的数据Opus 4.7 的主要基准跑分如下SWE-bench Verified87.6%相比 Opus 4.6 的 80.8% 提升了 6.8 个百分点SWE-bench Pro64.3%相比此前 4.6 版本的 53.4% 有明显跃升也超过了 OpenAI GPT-5.4 的 57.7%GPQA Diamond研究生级推理达到 94.2%Terminal-Bench 2.069.4%此前为 65.4%CursorBenchIDE 编码助手基准70%远高于 Opus 4.6 的 58%Finance Agent v1.1金融分析64.4%为当前可用模型中的最高水平OSWorld-Verified计算机使用78.0%较 Opus 4.6 的 72.7% 提升 5.3 分领先 GPT-5.4 的 75.0%在真实企业场景中性能提升同样扎实。Anthropic 引用合作伙伴的评估结果显示在乐天的 Rakuten-SWE-Bench 上Claude Opus 4.7 解决生产任务的数量是 Opus 4.6 的三倍在代码质量和测试质量上均有两位数的提升。值得一提的是在知识工作基准 GDPVal-AA 上Opus 4.7 取得了 1753 的 Elo 分数明显优于 GPT-5.41674和 Gemini 3.1 Pro1314。三、新增功能亮点1. xhigh 推理等级Opus 4.7 引入了介于 high 和 max 之间的新xhigh超高推理等级让用户可以在推理深度与响应延迟之间做更精细的权衡。Anthropic 建议在编码与智能体场景下以 high 或 xhigh 作为起点。在 Claude Code 中所有套餐的默认推理等级已上调至 xhigh。2. Task Budgets任务预算在 Claude 平台API方面除了支持更高分辨率的图像Anthropic 同时推出了公共测试版的 Task Budgets 功能为开发者提供一种引导 Claude 在较长任务中分配 token 消耗的方式。该功能允许开发者为自主智能体设定 token 支出的硬性上限避免长时间调试会话产生意外账单。3. /ultrareview 命令Claude Code 还新增了 /ultrareview 命令Anthropic 表示该命令会启动一个专门的代码审查会话逐条阅读改动并标记出细致审查者能发现的问题。Pro 与 Max 用户在发布时可免费使用三次 ultrareview。4. 视觉能力大幅升级Opus 4.7 支持长边最高 2,576 像素的图像约 3.75 百万像素是此前 Claude 模型的 3.3 倍以上。这对 UI 识别、文档理解和屏幕操作类智能体有直接意义。5. 长期记忆与多会话连续工作Opus 4.7 更善于使用基于文件系统的记忆它能在多会话的长期工作中记住重要笔记并据此在继续新任务时减少前置上下文。四、价格、可用性与迁移注意事项定价与渠道Opus 4.7 已在所有 Claude 产品及官方 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上线定价与 Opus 4.6 保持一致每百万输入 token 5 美元每百万输出 token 25 美元。Prompt 缓存最多可节省 90% 成本Batch API 可在输入与输出上均享 50% 折扣。与竞品相比Gemini 3.1 Pro 的输入/输出价格分别为每百万 token 2 美元和 12 美元价格更低但在 SWE-bench 和智能体推理这些企业买家最看重的基准上Opus 4.7 的领先可能让部分对能力敏感的客户仍愿意为其支付溢价。迁移注意Token 用量会上升这是本次升级最需要关注的隐性成本。Opus 4.7 使用了更新后的分词器对文本的处理方式有所改进代价是同样的输入可能映射到更多 token——根据内容类型的不同大约是 1.0–1.35 倍。此外Opus 4.7 在更高推理等级下尤其是智能体场景的后续对话轮次会进行更多思考这提升了对难题的可靠性但确实会产生更多输出 token。对于高并发、高吞吐的生产工作负载建议在大规模迁移前用真实 prompt 对新旧模型做一次 token 计数对比避免同样的价格账单却涨了 35%的意外。五、安全与网络安全管控Opus 4.7 是 Anthropic Project Glasswing 安全倡议之后首个承担安全机制试验田角色的公开模型。Anthropic 表示发布 Opus 4.7 时附带了可自动检测并阻止违禁或高风险网络安全用途请求的安全机制。从这些安全机制真实部署中所获得的经验将帮助公司最终实现 Mythos 级模型的广泛发布目标。有趣的是Opus 4.7 在网络安全漏洞复现基准上相较 Opus 4.6 出现了小幅退步新模型得分 73.1%而前代为 73.8%这与上述主动降能的训练策略一致。希望将 Opus 4.7 用于合法网络安全目的如漏洞研究、渗透测试、红队演练的专业人员可申请加入 Anthropic 新推出的 Cyber Verification Program网络安全验证计划。在对齐性方面Anthropic 的评估显示 Opus 4.7 的安全表现与 Opus 4.6 相似在欺骗、谄媚以及配合滥用等关键指标上维持在较低水平。其对齐评估认为该模型总体上对齐良好、值得信任但行为表现并不完全理想。六、行业反馈开发者伙伴怎么说Anthropic 在发布文中援引了多家企业的内部评估结论体现出 Opus 4.7 在真实工作负载中的表现WarpClaude Opus 4.7 对 Warp 而言是有意义的一次升级。Opus 4.6 已经是面向开发者最好的模型之一而这一版在此基础上的细致程度又有可度量的提升。CodeRabbit在代码审查工作负载中Claude Opus 4.7 是他们测试过最敏锐的模型召回率提升超过 10%能挖出最复杂 PR 中最难发现的 bug同时精度保持稳定。GensparkClaude Opus 4.7 在生产环境最关键的三个差异点——抗循环、一致性、优雅的错误恢复——上都达到了要求。抗循环尤为关键一个每 18 次查询就会陷入无限循环的模型既浪费计算又阻塞用户。HexClaude Opus 4.7 是 Hex 评估过最强的模型。它会在数据缺失时如实报告而不是给出看似合理但错误的替代方案并且能抵挡住连 Opus 4.6 都会中招的矛盾数据陷阱。七、一个值得注意的背景用户对 Opus 4.6 的不满本次发布还有一个容易被忽视的背景——发布时机正值用户数周以来抱怨 Opus 4.6 悄悄变差。一位 AMD 高级总监在广为流传的 GitHub 帖子里写道Claude 已经退化到不能被信任完成复杂工程工作。外界猜测 Claude 是否被人为阉割——要么出于成本控制要么为了将稀缺算力重新分配给 Mythos 及其他前沿项目。Anthropic 否认公司做过的任何改动是为了把算力转给其他项目。这一背景使 Opus 4.7 的发布多少承担着恢复信心的任务。八、小结一次务实而克制的升级综合来看Claude Opus 4.7 并非架构层面的革命性重写但它在几个对工程实践真正有意义的方向上都做了扎实推进编码任务的可靠性显著提升尤其在复杂、长时间运行的工作流中视觉能力从辅助跃升为真正强项更精细的推理与成本控制机制xhigh、task budgets、ultrareview贴近生产需求价格不变但 token 计数规则改变对高吞吐后端服务的实际成本需重新评估。对于正在构建高并发、高吞吐后端系统或依赖 LLM 完成复杂代码生成、算法实现、长时间智能体任务的团队Opus 4.7 值得在真实 prompt 上做一次完整的基准对比。尤其是 xhigh 等级与 task budgets 的组合可能让原本只能用 max 硬扛的任务找到更经济的平衡点。而那个被锁在保险柜里的 Mythos则仍在提醒整个行业模型能力的上限和模型能安全发布到市场的上限已经越来越不是同一件事。参考来源Anthropic 官方博客、CNBC、Axios、VentureBeat、9to5Mac、The Next Web、AWS 官方博客、Vellum AI、Gizmodo 等。

更多文章