Anthropic 又来砸场子了。
几天前,他们在 GitHub 悄悄上架了一批 Claude Cowork 插件。
合同审查、合规检查、法律摘要,几个 Markdown 和 JSON 文件,没有任何宣传。
然后华尔街炸了。
周二一天,全球软件股蒸发 2850 亿美元。
Thomson Reuters 跌了 16%,创历史最大单日跌幅。LegalZoom 跌了 20%。高盛美股软件指数单日暴跌 6%,是去年四月关税危机以来最狠的一刀。
投资者的逻辑很简单。
Anthropic 不再只是卖 API 了,它开始直接做应用层。
那些原本需要 SaaS 年费才能干的活,现在一个 AI 插件就能搞定。
华尔街还没缓过来,Anthropic 今天又放了个大招。
Claude Opus 4.6,迄今最强的 Claude 模型,正式上线。
01|Elo 高出 144 分,胜率七三开
先看数据。
GDPval-AA 是一个评估 AI 在金融、法律等知识工作中表现的测试,由独立机构 Artificial Analysis 运营。
Opus 4.6拿到 1606 分的 Elo 评分,比 OpenAI 的GPT-5.2高出 144 分,比自家上一代Opus 4.5高出 190 分。
144 分的 Elo 差距意味着什么?换算成胜率,大约是 70% 对 30%。
Terminal-Bench 2.0,代码能力评测,Opus 4.6拿到 65.4%,刷新了所有模型的纪录。
Humanity's Last Exam,一个覆盖多学科的复杂推理测试,全行业最高分。
BrowseComp,测试模型在网上找冷门信息的能力,还是第一。
划重点,这些测试不少是独立机构跑的,不是 Anthropic 自己评的。
02|100 万 tokens 上下文
这是Opus系列第一次支持 100 万 tokens 上下文窗口。
AI 领域有个老大难的问题叫「context rot」。
你给模型喂的信息越多,它的表现就越差。信息一多,关键的那一条它可能就找不到了。
Anthropic 用了一个叫 MRCR v2 的测试来量化这件事。
在大量文本里藏 8 根「针」,看模型能找到多少。
Opus 4.6在 100 万 tokens 条件下得分 76%。
Sonnet 4.5同样条件下只有 18.5%。
三倍多的差距。
Anthropic 官方说这是上下文能力的「质变」。
这意味着,你可以把一整个项目的代码库、几十份合同、或者一整本书投喂给 Claude,它能在里面找到你要的东西。
准确率还相当高。
03|500 个安全漏洞,上线前「顺手」挖的
这可能是今天最值得关注的细节。
Opus 4.6正式发布之前,Anthropic 的前沿红队在沙盒环境里做了个测试。
给 Claude 一套标准的漏洞分析工具,Python、调试器、模糊测试器,但没给任何特定指令或专业知识。
就是「你自己看着办」。
Claude 在开源代码里找到了超过 500 个此前没人发现过的安全漏洞。
每一个都经过了 Anthropic 团队成员或外部安全研究员的验证。
这些漏洞覆盖了从系统崩溃到内存损坏的各种级别。
GhostScript 里有一个 PDF 处理漏洞,传统的模糊测试和手动分析都没发现,Claude 翻了项目的 Git 提交记录才找到。
找到之后,它还会主动检查代码库其他地方有没有类似问题。
Anthropic 红队负责人 Logan Graham 说:
「这是防守方和攻击方之间的竞赛,我们要尽快把工具交到防守方手里。」
硬币有两面。
能力越强,被滥用的风险也越大。
Anthropic 新增了六个网络安全探测器,专门监控恶意使用。
他们甚至在考虑上线实时拦截,直接屏蔽可疑流量。
04|从写代码到做 PPT
Opus 4.5发布的时候,Anthropic 的定位还是「最强编程模型」。
三个月后,Opus 4.6的想象力大了不少。
Claude Code 里现在可以组建「Agent 团队」。
多个 Agent 并行工作,各自负责一块,自动协调。
一个管前端,一个管 API,一个管数据迁移。像一个真正的开发团队。
Anthropic 产品负责人 Scott White 说:「过去一年,Claude 从一个完成小任务的工具,变成了可以把真正的工作交给它的东西。」
Office 工具的整合也跟上了。
Excel 里的 Claude 现在能处理非结构化数据,自动推断正确的结构,一次性完成多步骤修改。
新上线的 PowerPoint 集成让 Claude 能读取你的模板、字体、排版风格,直接在 PPT 里帮你做 PPT。
目前是预览版,面向 Max、Team 和企业用户开放。
Anthropic 用了一个词叫「vibe working」。
从 vibe coding 到 vibe working,他们想让 Claude 不只是程序员的工具,而是所有知识工作者的工具。
05|同一天,OpenAI 也扔了个炸弹
今天的舞台不只有 Anthropic。
就在Opus 4.6发布的同一时刻,OpenAI 放出了GPT-5.3-Codex,号称「迄今最强编程模型」,还说这是「第一个参与创造了自己的模型」。
就在几天前,OpenAI 刚发布了 Codex 桌面应用,Sam Altman 说这是 OpenAI 内部最受欢迎的产品。
卷起来了。
从数据看,Anthropic 目前势头更猛。
a16z 今年 1 月的企业 AI 调查显示,大约 40% 的企业已经在生产环境中使用 Anthropic,这个数字两年前几乎是零。
Claude Code 去年 5 月正式上线,6 个月后年化营收就破了 10 亿美元。
Anthropic 去年全年营收接近 100 亿美元,最新一轮融资估值 3500 亿美元。
这个速度,有点猛。
06|现在就能用
Claude Opus 4.6今天已经在claude.ai、API 和所有主流云平台上线。
API 模型名称是claude-opus-4-6。
定价和之前一样,输入 5 美元/百万 tokens,输出 25 美元/百万 tokens。超过 20 万 tokens 的长上下文更贵一点,10/37.5 美元/百万 tokens。
一个小细节。
Anthropic 说Opus 4.6默认会「想得比较深」,在简单任务上可能显得有点慢。
如果觉得它想多了,可以用/effort把思考强度从 high 调到 medium。
可以开冲了。
跑分可以造假,但 500 个安全漏洞骗不了人。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。