news 2026/2/10 9:24:56

刚刚,Claude Opus 4.6 发布!碾压 GPT-5.2,顺手挖出 500 个安全漏洞

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
刚刚,Claude Opus 4.6 发布!碾压 GPT-5.2,顺手挖出 500 个安全漏洞

Anthropic 又来砸场子了。

几天前,他们在 GitHub 悄悄上架了一批 Claude Cowork 插件。

合同审查、合规检查、法律摘要,几个 Markdown 和 JSON 文件,没有任何宣传。

然后华尔街炸了。

周二一天,全球软件股蒸发 2850 亿美元。

Thomson Reuters 跌了 16%,创历史最大单日跌幅。LegalZoom 跌了 20%。高盛美股软件指数单日暴跌 6%,是去年四月关税危机以来最狠的一刀。

投资者的逻辑很简单。

Anthropic 不再只是卖 API 了,它开始直接做应用层。

那些原本需要 SaaS 年费才能干的活,现在一个 AI 插件就能搞定。

华尔街还没缓过来,Anthropic 今天又放了个大招。

Claude Opus 4.6,迄今最强的 Claude 模型,正式上线。


01|Elo 高出 144 分,胜率七三开

先看数据。

GDPval-AA 是一个评估 AI 在金融、法律等知识工作中表现的测试,由独立机构 Artificial Analysis 运营。

Opus 4.6拿到 1606 分的 Elo 评分,比 OpenAI 的GPT-5.2高出 144 分,比自家上一代Opus 4.5高出 190 分。

144 分的 Elo 差距意味着什么?换算成胜率,大约是 70% 对 30%。

Terminal-Bench 2.0,代码能力评测,Opus 4.6拿到 65.4%,刷新了所有模型的纪录。

Humanity's Last Exam,一个覆盖多学科的复杂推理测试,全行业最高分。

BrowseComp,测试模型在网上找冷门信息的能力,还是第一。

划重点,这些测试不少是独立机构跑的,不是 Anthropic 自己评的。


02|100 万 tokens 上下文

这是Opus系列第一次支持 100 万 tokens 上下文窗口。

AI 领域有个老大难的问题叫「context rot」。

你给模型喂的信息越多,它的表现就越差。信息一多,关键的那一条它可能就找不到了。

Anthropic 用了一个叫 MRCR v2 的测试来量化这件事。

在大量文本里藏 8 根「针」,看模型能找到多少。

Opus 4.6在 100 万 tokens 条件下得分 76%。

Sonnet 4.5同样条件下只有 18.5%。

三倍多的差距。

Anthropic 官方说这是上下文能力的「质变」。

这意味着,你可以把一整个项目的代码库、几十份合同、或者一整本书投喂给 Claude,它能在里面找到你要的东西。

准确率还相当高。


03|500 个安全漏洞,上线前「顺手」挖的

这可能是今天最值得关注的细节。

Opus 4.6正式发布之前,Anthropic 的前沿红队在沙盒环境里做了个测试。

给 Claude 一套标准的漏洞分析工具,Python、调试器、模糊测试器,但没给任何特定指令或专业知识。

就是「你自己看着办」。

Claude 在开源代码里找到了超过 500 个此前没人发现过的安全漏洞。

每一个都经过了 Anthropic 团队成员或外部安全研究员的验证。

这些漏洞覆盖了从系统崩溃到内存损坏的各种级别。

GhostScript 里有一个 PDF 处理漏洞,传统的模糊测试和手动分析都没发现,Claude 翻了项目的 Git 提交记录才找到。

找到之后,它还会主动检查代码库其他地方有没有类似问题。

Anthropic 红队负责人 Logan Graham 说:

「这是防守方和攻击方之间的竞赛,我们要尽快把工具交到防守方手里。」

硬币有两面。

能力越强,被滥用的风险也越大。

Anthropic 新增了六个网络安全探测器,专门监控恶意使用。

他们甚至在考虑上线实时拦截,直接屏蔽可疑流量。


04|从写代码到做 PPT

Opus 4.5发布的时候,Anthropic 的定位还是「最强编程模型」。

三个月后,Opus 4.6的想象力大了不少。

Claude Code 里现在可以组建「Agent 团队」。

多个 Agent 并行工作,各自负责一块,自动协调。

一个管前端,一个管 API,一个管数据迁移。像一个真正的开发团队。

Anthropic 产品负责人 Scott White 说:「过去一年,Claude 从一个完成小任务的工具,变成了可以把真正的工作交给它的东西。」

Office 工具的整合也跟上了。

Excel 里的 Claude 现在能处理非结构化数据,自动推断正确的结构,一次性完成多步骤修改。

新上线的 PowerPoint 集成让 Claude 能读取你的模板、字体、排版风格,直接在 PPT 里帮你做 PPT。

目前是预览版,面向 Max、Team 和企业用户开放。

Anthropic 用了一个词叫「vibe working」。

从 vibe coding 到 vibe working,他们想让 Claude 不只是程序员的工具,而是所有知识工作者的工具。


05|同一天,OpenAI 也扔了个炸弹

今天的舞台不只有 Anthropic。

就在Opus 4.6发布的同一时刻,OpenAI 放出了GPT-5.3-Codex,号称「迄今最强编程模型」,还说这是「第一个参与创造了自己的模型」。

就在几天前,OpenAI 刚发布了 Codex 桌面应用,Sam Altman 说这是 OpenAI 内部最受欢迎的产品。

卷起来了。

从数据看,Anthropic 目前势头更猛。

a16z 今年 1 月的企业 AI 调查显示,大约 40% 的企业已经在生产环境中使用 Anthropic,这个数字两年前几乎是零。

Claude Code 去年 5 月正式上线,6 个月后年化营收就破了 10 亿美元。

Anthropic 去年全年营收接近 100 亿美元,最新一轮融资估值 3500 亿美元。

这个速度,有点猛。


06|现在就能用

Claude Opus 4.6今天已经在claude.ai、API 和所有主流云平台上线。

API 模型名称是claude-opus-4-6

定价和之前一样,输入 5 美元/百万 tokens,输出 25 美元/百万 tokens。超过 20 万 tokens 的长上下文更贵一点,10/37.5 美元/百万 tokens。

一个小细节。

Anthropic 说Opus 4.6默认会「想得比较深」,在简单任务上可能显得有点慢。

如果觉得它想多了,可以用/effort把思考强度从 high 调到 medium。

可以开冲了。


跑分可以造假,但 500 个安全漏洞骗不了人。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 20:45:40

ai练字系统设计与开发

一、 研究目的本研究的核心目的在于设计并开发一套智能化、个性化、互动性强的AI辅助汉字书写练习系统。该系统旨在解决传统书法教育中存在的师资短缺、练习过程枯燥、反馈不及时且主观性强、个性化指导不足等痛点。具体目的可分为三个层面:首先,在技术实…

作者头像 李华
网站建设 2026/2/7 23:34:46

8. 供应链与制造过程术语:产能

1. 摘要 本文核心围绕产能(Capacity) 展开,先给出非正式类比定义(资源可利用的全部时间“蛋糕”,分为工作时间和闲置时间),明确可用产能(Capacity Available)&#xff0…

作者头像 李华
网站建设 2026/2/9 17:35:21

基于微信小程序的志愿服务管理系统毕业论文+PPT(附源代码+演示视频)

文章目录 一、项目简介1.1 运行视频1.2 🚀 项目技术栈1.3 ✅ 环境要求说明1.4 包含的文件列表 前台运行截图后台运行截图项目部署源码下载 一、项目简介 项目基于微信小程序,使用微信原生开发框架或uni-app框架开发。《基于微信小程序的志愿服务管理系统…

作者头像 李华
网站建设 2026/2/9 14:14:29

《夜色正浓》30美少妇遇上60帅大叔,张兆辉蓝盈莹cp满满

谁说帅大叔和美少妇之间没有化学反应?最近,一部《夜色正浓》直接让观众的嗑糖DNA动了。剧中张兆辉与蓝盈莹这对跨越将近30岁年龄差的CP,不仅没有让人感到违和,反而因为那种成熟男人与清醒女性之间的极致拉扯,让无数观众…

作者头像 李华
网站建设 2026/2/8 12:06:37

为什么可控AI在短线交易中,日收益2%绝不是天花板

1. 先说结论在A股 T1 制度下,依靠真正可控的AI系统,日收益稳定在2%左右,并不是什么遥不可及的“神迹”,而是一个相对保守的下限估计。很多人听到“日收益2%”会觉得离谱,但真正离谱的是下面这个认知:大多数…

作者头像 李华