news 2026/6/25 22:52:42

大模型榜单周报(2026/01/10)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2026/01/10)

1. 本周概览

本周大模型领域多项技术突破引人注目,包括NVIDIA发布Rubin平台大幅降低成本、OpenAI推出健康垂直领域功能,以及上海AI Lab开源Yume1.5世界模型实现效率飞跃。同时,OpenRouter模型调用量排名出现显著变化,Claude Sonnet 4.5超越Grok Code Fast 1成为整体调用量冠军,行业格局正在发生微妙调整。

2. 重点关注事件

  • NVIDIA于1月5日发布Rubin平台,对六款全新芯片采用软硬件极致协同设计,将推理token成本最多降低至NVIDIA Blackwell平台的十分之一,在MoE模型训练中使用的GPU数量仅为Blackwell平台的四分之一,大幅提升了AI计算经济性。
  • OpenAI于1月7日发布ChatGPT健康功能,在ChatGPT中拥有独立空间,对话、已连接的应用和文件均与其他聊天内容隔离存储,标志着AI在垂直领域应用的进一步深化。
  • DeepSeek R1论文于1月8日更新,增加64页内容,v2版本论文披露了R1训练全路径、「Aha Moment」的数据化验证、自适应算力分配、失败总结等核心技术细节。
  • 上海AI Lab于1月9日联合多家机构开源Yume1.5世界模型,在长视频生成中实现了近似恒定计算成本的全局记忆访问,模型推理效率提升70倍,推动了世界模型技术发展。

3. 榜单变化

  • OpenRouter模型调用量排名:整体调用量方面,Claude Sonnet 4.5超越Grok Code Fast 1排名第一;Gemini 3 Flash Preview由第6名上升2名到第4名;MiMo-V2-Flash(free)下降两名,排名第5。编程调用量方面,Grok Code Fast 1保持第1;Claude Opus 4.5排名第2,上升2名;MiniMax M2.1新上榜排名第3。
  • OpenRouter公司市占率排名:Google继续保持第1;Anthropic市占率上升4.3%(12.9% → 17.2%),排名升至第2;xAI、OpenAI分别位列第3、4名,OpenAI市占率上升3.1%(8.0% → 11.1%);DeepSeek份额下降4.5%(13.3% → 8.8%),排名相应下降3名位列第5;小米、MistralAI、z-AI保持第6、7、9名;MiniMax上升到第8名,替代上周Qwen的位置。
  • 图像编辑能力榜单:在Image Edit Arena中,qwen-image-edit-2511新上榜排名第9;在Artificial Analysis Image Editing Leaderboard中,Wan 2.6超过Nano Banana到榜单第5位。
  • GPQA榜单:GPT-5.1 High、GPT-5 Medium新上榜,并列第6位。
  • GAIA榜单:Nvidia的Nemotron-ToolOrchestra-0106和Nemotron-ToolOrchestra-0107新上榜,排名前两位。

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Claude Sonnet 4.5Grok Code Fast 1Gemini 2.5 Flash
公司市占率GoogleAnthropicxAI
编程模型调用量Grok Code Fast 1Claude Opus 4.5MiniMax M2.1

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、百度、智谱、阿里巴巴、月之暗面
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIANvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 6:26:19

好写作AI:AI时代学术诚信!如何成为“负责任的研究”伙伴?

当你的导师在组会上突然发问:“最近AI写作很火,你们怎么用?”实验室的空气瞬间凝固——承认在用怕被贴上“偷懒”标签,否认在用又有点违心。这种两难,正在悄悄定义AI时代的学术新常态。“用AI写论文,算作弊…

作者头像 李华
网站建设 2026/6/22 0:50:58

好写作AI:拖延症克星!如何分解论文任务并督促完成?

你的论文进度,是否也完美遵循“帕金森定律”——无论有多少时间,总要拖到截止前最后一刻才开始疯狂冲刺?有一种神秘的宇宙现象:当老师布置了一篇四周后交的论文,前二十天你会觉得“时间还多”,第二十一天开…

作者头像 李华
网站建设 2026/6/15 20:55:27

MechJeb2自动驾驶模组:解锁KSP太空探索的终极利器

MechJeb2自动驾驶模组:解锁KSP太空探索的终极利器 【免费下载链接】MechJeb2 MechJeb2 - KSP mod 项目地址: https://gitcode.com/gh_mirrors/me/MechJeb2 MechJeb2是Kerbal Space Program中最强大的飞行辅助模组,为玩家提供从基础导航到复杂轨道…

作者头像 李华
网站建设 2026/6/25 21:35:15

AutoGLM-Phone-9B应用案例:智能相册分类

AutoGLM-Phone-9B应用案例:智能相册分类 随着移动端AI能力的持续进化,用户对本地化、低延迟、高隐私保护的智能服务需求日益增长。在图像管理场景中,传统基于标签或时间排序的相册系统已难以满足用户对“语义级”内容组织的需求。如何让手机…

作者头像 李华
网站建设 2026/6/21 10:44:42

Keil5芯片包下载在工业网关设备中的实践

Keil5芯片包下载在工业网关开发中的真实落地:从配置到实战的全链路解析 一次调试失败,让我重新认识了Keil芯片包的重要性 上周五下午,项目组正在为一款新型工业网关做最后的功能联调。设备基于STM32F407IGT6,需要同时跑CANopen、…

作者头像 李华
网站建设 2026/6/13 8:30:36

LabelImg标注效率翻倍秘籍:从入门到精通的实战指南

LabelImg标注效率翻倍秘籍:从入门到精通的实战指南 【免费下载链接】labelImg 项目地址: https://gitcode.com/gh_mirrors/labe/labelImg 还在为图像标注效率低下而苦恼吗?LabelImg作为一款轻量级图像标注工具,通过合理的操作技巧和自…

作者头像 李华