news 2026/6/12 4:02:53

AI巨头激战:Claude神话版与GPT5.6对决,这周模型圈太炸了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI巨头激战:Claude神话版与GPT5.6对决,这周模型圈太炸了

本文整理自B站「AI巨头激战:Claude神话版与GPT5.6对决」,通过音视频转录总结神器Ai好记进行转录整理,以下为视频转文字整理后的内容。

这一周的AI圈,消息多到让人跟不上。

Anthropic 的 Claude Mythos(神话版)最快可能本周发布,OpenAI 的 GPT 5.6 已经选定发布候选版本,Google 的 Gemini 3 Flash Preview 泄露样张流出,还有一个叫 JNexT-2 的开源智能体模型悄悄跑赢了 GPT 5.5。

三家巨头加上开源社区,全挤在同一周里出牌。下面把核心信息串联一下。

Claude Mythos / Fable 5:Anthropic 的正面回击

多方消息指向同一个结论——Anthropic 最快发布 Claude 的下一代模型。

Mythos 级别的公开版本

API 文档中已经出现了claude-mythos-5的模型标识符。红队测试已经完成,模型演示视频也已制作完毕。Polymarket 上的预测市场显示,目前有 92% 的概率认为 Anthropic 将在本月发布新模型。

泄露信息中出现了两个值得关注的名字:claude-fable-5claude-fruitcake-eap

据消息人士称,Fable 5 本质上就是 Mythos 级别,底层可能是同一个模型,只是在前置层增加了面向公众的安全限制。简单来说,Mythos 是原生前沿模型,Fable 5 是更安全的公开版本。

一次生成 2000+ 行代码

泄露的生成案例相当惊人。

Fable 5 仅凭一次提示就完美复刻了经典游戏「割绳子」,包含多个关卡,功能与原版完全一致。关键是在低思考模式下就做到了——爆料人提到不同思考模式之间的质量跨度非常明显,开启最高性能后效果会更夸张。

更值得注意的是,它一次能输出 2000 多行代码,且没有出现常见的"偷懒"问题(即模型在长输出中偷工减料,只给出不完整版本)。这对于开发者来说,正是对前沿模型的核心期待。

东京研讨会时间线

Anthropic 正在东京举办研讨会。按照以往经验,每逢这类活动他们总会发布新东西——可能是模型更新,也可能是 Claude Code 功能升级。6 月 10 日的研讨会时间点,与新模型发布的预期高度吻合。

GPT 5.6(代号 Kindle):OpenAI 的发布候选已锁定

Kindle Alpha 胜出

上期消息中提到 OpenAI 正在测试两个 GPT 5.6 检查点:KeplerKindle。两者相隔不到一天先后上线,早期对比结果喜忧参半,部分测试显示 Kindle 比起 Kepler 甚至还有轻微退步。

但最终,OpenAI 选定Kindle Alpha作为发布候选版。今天在 Design Arena 中看到的版本,已确认指向 GPT 5.6 的最终模型节点。

零样本图像转代码

泄露案例展示了 Kindle 的强悍能力——仅靠一句提示词,且不借助任何工具,它直接重构了 Xbox 控制器的外观。这说明模型在视觉布局理解和图像到代码的转化方面,进化远超预期。

随着 Claude 进入设计领域,以及此前 Claude Alpha 的泄露传闻,OpenAI 这次在视觉生成领域的发力,看起来像是在提前卡位。

秘密提交 IPO 申请

除了模型本身,还有一条重磅消息——OpenAI 已秘密提交 S-1 上市申请文件。虽然没有明确的时间表,但通过秘密递交,他们就掌握了主动权,一旦时机成熟就能更快推进上市。

如果 OpenAI 最终与 Anthropic 等公司并肩上市,甚至可能包括 SpaceX,这有望成为科技史上规模最大的一波 AI IPO 热潮。

Gemini 3 Flash Preview:谷歌的老毛病还在

谷歌即将推出的 Gemini 3 Flash Preview 最近有一些输出样张流出。

目前看来,它似乎仍存在那个老问题——懒惰生成。当你要求它生成详细内容时,它往往不会完整执行,只给出一个简化或不完整的版本。这是过去 Gemini 模型最受用户诟病的问题之一。

不过平心而论,现在流出的很可能只是个尚未完工的测试版本。谷歌仍在持续迭代,最终发布时的表现往往更好。这种情况在之前的谷歌模型中也出现过。

JNexT-2:被忽视的开源黑马

有一个容易被忽略的新模型——JNexT-2。这是一个全新的开源智能体模型系列,不只是为了思考而设计,而是在编程、搜索和工具调用中实际执行任务。

它的核心特性之一是自适应思维模式:模型能自动根据任务复杂度动态分配推理资源,节省约 20% 的 Token 消耗,且不损耗性能。

在 WAbank、MinalBench 和 QA 等基准测试中,它的表现逼近 GPT 5.5 和 Claude 3 Opus 等顶尖模型。在浏览器基准测试中,甚至击败了 GPT 5.5。而且它开放了权重,开发者可以第一时间上手本地测试。

其他值得关注的更新

除了三大巨头的正面交锋,还有一些技术动态值得留意:

  • NotebookLM 升级:接入云端安全计算机,新增智能体化研究流程,用户只需提供零散构思,Notebook 就能自动检索并添加网络资源

  • Kimi for Word:发布桌面应用,支持同时启动最多 300 个本地智能体并行处理任务。通过 WebBridge 系统调用浏览器,实现自动化研究

  • 苹果 WWDC26:发布 Apple Intelligence,Siri 获得跨应用理解能力,能翻找短信、邮件、照片来回答问题并直接执行操作。同时确认与谷歌在下一代 Apple Intelligence 上展开合作

小结

这周的核心看点是:

  • Claude Mythos/Fable 5 可能随时发布,正面回击 GPT 5.6; GPT 5.6 选定 Kindle
  • Alpha,零样本图像转代码能力亮眼;
  • Gemini 3 Flash Preview 还需要再打磨;而开源阵营的 JNexT-2已经悄悄追了上来。

模型能力的迭代周期正在肉眼可见地缩短。从每月发布到每周更新,巨头之间的竞争已经进入了"周更"模式。

以上内容由 Ai好记 转录整理。
Ai好记是一款音视频转图文笔记的 AI 学习助手,支持 B站、抖音、小宇宙等平台链接及本地音视频文件,转入后自动生成精华速览、思维导图和结构化笔记,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 4:02:02

别再只用clock()了!C/C++性能测试:串行并行场景下的三种计时方法实战对比(附代码)

C/C性能计时方法论:从基础clock()到高精度并行场景实战指南在性能优化领域,精确测量代码执行时间是诊断瓶颈、验证改进效果的基础操作。许多开发者习惯性使用clock()函数进行简单计时,但当面对现代复杂的计算场景——特别是涉及多线程、I/O等…

作者头像 李华
网站建设 2026/6/12 4:01:40

STM32F103驱动RC522:从零构建M1卡读写器与扇区安全实践

1. 硬件准备与连接指南 第一次接触STM32和RC522模块时,最头疼的就是硬件连接问题。我用的正点原子精英版开发板,板载的STM32F103ZET6芯片性能足够驱动RC522。这里分享几个容易踩坑的点: 电源匹配:RC522模块有3.3V和5V两种版本&…

作者头像 李华
网站建设 2026/6/12 4:01:17

065、从 Skill 到自动化平台:把项目流程固化为可复用的技能库体系

065、从 Skill 到自动化平台:把项目流程固化为可复用的技能库体系 上周五凌晨两点,我在调试一个跨团队协作的 CI/CD 流水线。Claude Code 跑了三遍,每次都在同一个环节卡住——它不知道应该先执行数据库迁移还是先部署新版本的服务。我盯着终端里那行“I need more context”…

作者头像 李华
网站建设 2026/6/12 4:01:14

从RGB颜色提取到网络字节序转换:聊聊移位运算在真实项目里的那些坑

从RGB颜色提取到网络字节序转换:移位运算实战避坑指南深夜调试代码时,你是否遇到过颜色显示异常、网络数据解析错误或是加密结果不符预期?这些看似毫无关联的问题,很可能都源于对移位运算的误解。移位运算作为编程语言中最基础的位…

作者头像 李华