Anthropic 正式发布 Claude Opus 4.7：编码能力登顶，但“最强模型“仍被锁在保险柜

张开发

• 2026/5/18 7:33:31 • 15 分钟阅读

分享文章

Anthropic 正式发布 Claude Opus 4.7：编码能力登顶，但“最强模型“仍被锁在保险柜

一、发布概览2026 年 4 月 16 日周四Anthropic 正式推出旗舰模型 Claude Opus 4.7这是距离 2026 年 2 月发布 Claude Opus 4.6 约两个月之后的又一次升级。这一节奏已与 Anthropic 近期的迭代规律一致——Opus 4.7 在 Opus 4.6 发布两个月后到来而 Opus 4.6 也是在 Opus 4.5 发布两个月后推出。本次发布最耐人寻味之处在于 Anthropic 的双轨策略一方面将 Opus 4.7 作为可大规模商用的最强模型推向市场另一方面则公开承认其更强大的Claude Mythos Preview因安全顾虑仍被限制使用。Anthropic 公开承认Opus 4.7 的表现不及 Mythos——那是公司出于安全考虑至今未向公众发布的高能力系统。二、核心能力升级软件工程是绝对主角Opus 4.7 最引人注目的提升集中在软件工程领域。Anthropic 表示Opus 4.7 在高级软件工程方面相比 Opus 4.6 有显著改进尤其在最困难的任务上取得突出进展。关键基准测试成绩根据 Anthropic 及多方媒体整理的数据Opus 4.7 的主要基准跑分如下SWE-bench Verified87.6%相比 Opus 4.6 的 80.8% 提升了 6.8 个百分点SWE-bench Pro64.3%相比此前 4.6 版本的 53.4% 有明显跃升也超过了 OpenAI GPT-5.4 的 57.7%GPQA Diamond研究生级推理达到 94.2%Terminal-Bench 2.069.4%此前为 65.4%CursorBenchIDE 编码助手基准70%远高于 Opus 4.6 的 58%Finance Agent v1.1金融分析64.4%为当前可用模型中的最高水平OSWorld-Verified计算机使用78.0%较 Opus 4.6 的 72.7% 提升 5.3 分领先 GPT-5.4 的 75.0%在真实企业场景中性能提升同样扎实。Anthropic 引用合作伙伴的评估结果显示在乐天的 Rakuten-SWE-Bench 上Claude Opus 4.7 解决生产任务的数量是 Opus 4.6 的三倍在代码质量和测试质量上均有两位数的提升。值得一提的是在知识工作基准 GDPVal-AA 上Opus 4.7 取得了 1753 的 Elo 分数明显优于 GPT-5.41674和 Gemini 3.1 Pro1314。三、新增功能亮点1. xhigh 推理等级Opus 4.7 引入了介于 high 和 max 之间的新xhigh超高推理等级让用户可以在推理深度与响应延迟之间做更精细的权衡。Anthropic 建议在编码与智能体场景下以 high 或 xhigh 作为起点。在 Claude Code 中所有套餐的默认推理等级已上调至 xhigh。2. Task Budgets任务预算在 Claude 平台API方面除了支持更高分辨率的图像Anthropic 同时推出了公共测试版的 Task Budgets 功能为开发者提供一种引导 Claude 在较长任务中分配 token 消耗的方式。该功能允许开发者为自主智能体设定 token 支出的硬性上限避免长时间调试会话产生意外账单。3. /ultrareview 命令Claude Code 还新增了 /ultrareview 命令Anthropic 表示该命令会启动一个专门的代码审查会话逐条阅读改动并标记出细致审查者能发现的问题。Pro 与 Max 用户在发布时可免费使用三次 ultrareview。4. 视觉能力大幅升级Opus 4.7 支持长边最高 2,576 像素的图像约 3.75 百万像素是此前 Claude 模型的 3.3 倍以上。这对 UI 识别、文档理解和屏幕操作类智能体有直接意义。5. 长期记忆与多会话连续工作Opus 4.7 更善于使用基于文件系统的记忆它能在多会话的长期工作中记住重要笔记并据此在继续新任务时减少前置上下文。四、价格、可用性与迁移注意事项定价与渠道Opus 4.7 已在所有 Claude 产品及官方 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上线定价与 Opus 4.6 保持一致每百万输入 token 5 美元每百万输出 token 25 美元。Prompt 缓存最多可节省 90% 成本Batch API 可在输入与输出上均享 50% 折扣。与竞品相比Gemini 3.1 Pro 的输入/输出价格分别为每百万 token 2 美元和 12 美元价格更低但在 SWE-bench 和智能体推理这些企业买家最看重的基准上Opus 4.7 的领先可能让部分对能力敏感的客户仍愿意为其支付溢价。迁移注意Token 用量会上升这是本次升级最需要关注的隐性成本。Opus 4.7 使用了更新后的分词器对文本的处理方式有所改进代价是同样的输入可能映射到更多 token——根据内容类型的不同大约是 1.0–1.35 倍。此外Opus 4.7 在更高推理等级下尤其是智能体场景的后续对话轮次会进行更多思考这提升了对难题的可靠性但确实会产生更多输出 token。对于高并发、高吞吐的生产工作负载建议在大规模迁移前用真实 prompt 对新旧模型做一次 token 计数对比避免同样的价格账单却涨了 35%的意外。五、安全与网络安全管控Opus 4.7 是 Anthropic Project Glasswing 安全倡议之后首个承担安全机制试验田角色的公开模型。Anthropic 表示发布 Opus 4.7 时附带了可自动检测并阻止违禁或高风险网络安全用途请求的安全机制。从这些安全机制真实部署中所获得的经验将帮助公司最终实现 Mythos 级模型的广泛发布目标。有趣的是Opus 4.7 在网络安全漏洞复现基准上相较 Opus 4.6 出现了小幅退步新模型得分 73.1%而前代为 73.8%这与上述主动降能的训练策略一致。希望将 Opus 4.7 用于合法网络安全目的如漏洞研究、渗透测试、红队演练的专业人员可申请加入 Anthropic 新推出的 Cyber Verification Program网络安全验证计划。在对齐性方面Anthropic 的评估显示 Opus 4.7 的安全表现与 Opus 4.6 相似在欺骗、谄媚以及配合滥用等关键指标上维持在较低水平。其对齐评估认为该模型总体上对齐良好、值得信任但行为表现并不完全理想。六、行业反馈开发者伙伴怎么说Anthropic 在发布文中援引了多家企业的内部评估结论体现出 Opus 4.7 在真实工作负载中的表现WarpClaude Opus 4.7 对 Warp 而言是有意义的一次升级。Opus 4.6 已经是面向开发者最好的模型之一而这一版在此基础上的细致程度又有可度量的提升。CodeRabbit在代码审查工作负载中Claude Opus 4.7 是他们测试过最敏锐的模型召回率提升超过 10%能挖出最复杂 PR 中最难发现的 bug同时精度保持稳定。GensparkClaude Opus 4.7 在生产环境最关键的三个差异点——抗循环、一致性、优雅的错误恢复——上都达到了要求。抗循环尤为关键一个每 18 次查询就会陷入无限循环的模型既浪费计算又阻塞用户。HexClaude Opus 4.7 是 Hex 评估过最强的模型。它会在数据缺失时如实报告而不是给出看似合理但错误的替代方案并且能抵挡住连 Opus 4.6 都会中招的矛盾数据陷阱。七、一个值得注意的背景用户对 Opus 4.6 的不满本次发布还有一个容易被忽视的背景——发布时机正值用户数周以来抱怨 Opus 4.6 悄悄变差。一位 AMD 高级总监在广为流传的 GitHub 帖子里写道Claude 已经退化到不能被信任完成复杂工程工作。外界猜测 Claude 是否被人为阉割——要么出于成本控制要么为了将稀缺算力重新分配给 Mythos 及其他前沿项目。Anthropic 否认公司做过的任何改动是为了把算力转给其他项目。这一背景使 Opus 4.7 的发布多少承担着恢复信心的任务。八、小结一次务实而克制的升级综合来看Claude Opus 4.7 并非架构层面的革命性重写但它在几个对工程实践真正有意义的方向上都做了扎实推进编码任务的可靠性显著提升尤其在复杂、长时间运行的工作流中视觉能力从辅助跃升为真正强项更精细的推理与成本控制机制xhigh、task budgets、ultrareview贴近生产需求价格不变但 token 计数规则改变对高吞吐后端服务的实际成本需重新评估。对于正在构建高并发、高吞吐后端系统或依赖 LLM 完成复杂代码生成、算法实现、长时间智能体任务的团队Opus 4.7 值得在真实 prompt 上做一次完整的基准对比。尤其是 xhigh 等级与 task budgets 的组合可能让原本只能用 max 硬扛的任务找到更经济的平衡点。而那个被锁在保险柜里的 Mythos则仍在提醒整个行业模型能力的上限和模型能安全发布到市场的上限已经越来越不是同一件事。参考来源Anthropic 官方博客、CNBC、Axios、VentureBeat、9to5Mac、The Next Web、AWS 官方博客、Vellum AI、Gizmodo 等。

Anthropic 正式发布 Claude Opus 4.7：编码能力登顶，但“最强模型“仍被锁在保险柜

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

华为iFIT技术实战：如何在SRv6网络中实现微秒级时延检测（附配置步骤）

离散数学到底有啥用？从数据库索引到社交网络推荐，揭秘那些藏在课本里的工程实践

Jsxer：解锁Adobe脚本加密文件的3个关键价值

别再死记硬背公式了！用Python+OpenCV实战GLCM纹理分析（附完整代码）

从汇编到波形：DAC0832数模转换实战与微机接口编程

Blender3mfFormat插件：免费实现3D打印工作流的终极解决方案

AI助手真的能帮你订机票、投简历吗？

丹青幻境企业实操：电商品牌用Cosplay LoRA批量生成节气商品主图

SQL嵌套查询处理大数据量_内存压力缓解方案

FDTD进阶指南：Lumerical脚本精讲之仿真区域与网格优化（四）

如何高效管理Windows右键菜单：ContextMenuManager专业指南

Intv_AI_MK11辅助VMware虚拟机环境搭建与配置