news 2026/1/1 6:46:24

100 万亿 tokens 实证洞察:OpenRouter 揭示 LLM 真实使用图景 —— 开源崛起、智能体推理主导,角色扮演与编程成核心场景,全球生态呈现多元化新格局

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
100 万亿 tokens 实证洞察:OpenRouter 揭示 LLM 真实使用图景 —— 开源崛起、智能体推理主导,角色扮演与编程成核心场景,全球生态呈现多元化新格局

总结至:《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》

1. 一段话总结

本研究基于OpenRouter平台100万亿 tokens的真实LLM交互数据,聚焦2024-2025年关键趋势:OpenAI o1模型推动行业从单轮生成转向多步审慎推理开源模型占比达30%且中国模型快速崛起,创意角色扮演(占开源模型使用量超50%)和编程辅助成为核心应用场景,智能体推理(工具调用、长序列交互)兴起,同时观察到"灰姑娘玻璃鞋效应"(早期用户留存率显著更高),全球 usage 呈现北美主导、亚洲占比升至31%的多元化格局,为模型构建者、开发者和基础设施提供商提供了数据驱动的决策参考。


2. 思维导图(mindmap)

## 研究基础 - 数据来源:OpenRouter平台100万亿tokens真实交互数据 - 时间范围:主要覆盖2024年11月-2025年11月 - 核心方法:基于元数据分析,GoogleTagClassifier分类任务 ## 模型生态趋势 - 开源vs闭源:开源占比30%,闭源仍主导高价值场景 - 开源关键玩家:DeepSeek(14.37万亿tokens)、Qwen、Meta LLaMA等 - 模型规模演变:中型模型(15-70B参数)崛起,小型模型份额下降 - 地域分布:北美<50%,亚洲升至31%,中国模型贡献显著 ## 核心应用场景 - 开源模型:角色扮演(52%)、编程(15-20%)居前 - 全量模型:编程占比从11%升至50%,成为第一大场景 - 其他场景:翻译、知识问答、教育、科技/科学等 ## 关键使用趋势 - 推理模式:智能体推理兴起,推理模型占比超50% - 交互特征:提示词 tokens 增4倍,序列长度增3倍,编程场景驱动复杂交互 - 工具调用:使用率持续上升,Claude、Gemini等模型主导 ## 关键现象与动态 - 留存效应:"灰姑娘玻璃鞋效应",早期契合用户需求的模型留存率更高 - 成本与使用:需求弹性弱,闭源模型占高价值场景,开源模型主导高容量低价值场景 - 市场格局:多模型生态,无单一主导者,竞争聚焦差异化能力 ## 研究意义 - 对开发者:多模型整合策略 - 对模型提供商:持续创新与差异化 - 对基础设施商:适配智能体推理需求

3. 详细总结

一、研究背景与数据基础
  1. 研究契机:2024年12月OpenAI o1模型发布,推动LLM从单轮文本生成转向多步审慎推理,行业实践应用快速迭代,但实证研究滞后,本研究填补这一空白。
  2. 数据规模:基于OpenRouter平台100万亿 tokens的匿名元数据,涵盖全球数十亿次prompt-Completion交互,覆盖超300个模型、60+提供商,50%以上使用量来自美国以外地区。
  3. 研究方法
    • 任务分类:通过GoogleTagClassifier对0.25%样本分类,映射为编程、角色扮演等9大核心类别;
    • 模型划分:按开源(权重公开)/闭源(API受限)、中国/非中国 origin 分类;
    • 地理划分:基于账单地址确定用户区域,确保隐私合规;
    • 时间范围:主要分析2024年11月-2025年11月,类别分析聚焦2025年5月后(标签系统稳定期)。
二、模型生态格局
维度核心发现关键数据
开源vs闭源闭源仍占主导,开源稳步增长,形成双轨生态开源模型占比达30%,闭源模型平均占70%;中国开源模型周占比最高近30%,平均13%
开源模型TOP10DeepSeek居首,Qwen、Meta LLaMA紧随,市场从垄断转向多元化DeepSeek(14.37万亿)、Qwen(5.59万亿)、Meta LLaMA(3.96万亿)
模型规模演变中型模型(15-70B参数)崛起,小型模型(<15B)份额下降,大型模型(≥70B)多元化中型模型自2024年11月Qwen2.5 Coder 32B发布后快速成为核心类别
地域分布北美占比下降,亚洲快速增长,全球使用多元化北美<50%,亚洲占比从13%升至31%;英语占82.87%,简体中文占4.95%
三、核心应用场景分析
  1. 开源模型场景分布
    • 主导场景:角色扮演(52%)编程(15-20%),合计占比超70%;
    • 角色扮演优势:开源模型内容限制更少,适配创意对话、游戏场景需求;
    • 中国开源模型特色:编程+科技类占比达39%,高于全球开源平均水平。
  2. 全量模型场景趋势
    • 编程场景爆发:占比从2025年初11%升至年末50%,成为第一大场景;
    • 头部模型主导:Anthropic Claude系列占编程场景60%以上,OpenAI、Google紧随;
    • 其他场景:翻译、知识问答、教育、科技/科学等形成长尾分布,健康、法律场景碎片化明显。
四、关键使用行为趋势
  1. 智能体推理崛起
    • 推理模型占比:2025年末超50%,xAI Grok Code Fast 1、Google Gemini 2.5 Pro主导;
    • 工具调用:使用率持续上升,Claude 3.5/4.5、Gemini系列为核心支持模型;
    • 交互复杂度提升:提示词tokens增4倍(从1.5K→6K),序列长度增3倍(从2K→5.4K),编程场景驱动长文本交互(平均3-4倍于其他场景)。
  2. 成本与使用动态
    • 市场四象限:
      • 高端工作负载(高成本高使用):科技、科学;
      • 大众流量驱动(低成本高使用):编程、角色扮演;
      • 专业小众(高成本低使用):金融、医疗、营销;
      • niche工具(低成本低使用):翻译、法律、 trivia;
    • 价格弹性:需求相对无弹性,10%降价仅带来0.5-0.7%使用增长,闭源模型垄断高价值场景,开源模型主导高容量场景。
五、关键现象与用户留存
  1. 灰姑娘"玻璃鞋"效应:早期用户与模型形成深度契合后,留存率显著高于后期用户,如Gemini 2.5 Pro(2025年6月 cohort 5个月留存40%)、Claude 4 Sonnet(2025年5月 cohort 5个月留存40%);
  2. 特殊留存模式
    • 回归效应:DeepSeek模型出现用户流失后回归现象,因特定场景适配性优于竞品;
    • 无契合困境:Gemini 2.0 Flash、Llama 4 Maverick未形成核心用户群,所有cohort留存低迷。
六、研究意义与启示
  1. 对模型构建者:聚焦中型模型优化、编程/角色扮演场景适配、多步推理能力;
  2. 对开发者:采用多模型策略,按任务选择最优模型,而非单一依赖;
  3. 对基础设施商:适配智能体推理的长序列、工具集成、跨模型调度需求;
  4. 对市场参与者:开源模型持续挤压闭源定价空间,差异化(可靠性、集成能力)成为核心竞争力。

4. 关键问题

问题1:开源LLM的核心应用场景是什么?其崛起对市场格局产生了哪些关键影响?

答案:开源LLM的核心应用场景是创意角色扮演(占比52%)编程辅助(15-20%),合计贡献超70%的开源模型使用量。关键影响包括:1)形成"闭源主导高价值场景+开源占据高容量场景"的双轨生态,开源模型整体占比达30%;2)市场从单模型垄断转向多元化,DeepSeek、Qwen等开源模型与OpenAI、Anthropic形成竞争;3)中国开源模型快速崛起,平均占全球开源使用量13%,在编程、科技场景表现突出,重塑全球开源竞争格局;4)推动成本优化,开源模型以高性价比适配角色扮演、中小开发者编程等场景,挤压闭源模型的中低端市场空间。

问题2:LLM从"单轮交互"向"智能体推理"转型的关键特征的是什么?这一转型对产业链各环节提出了哪些新要求?

答案:转型的关键特征包括:1)推理模型占比超50%,多步审慎推理成为主流;2)工具调用使用率持续上升,模型需协调外部工具完成复杂任务;3)交互复杂度激增,提示词tokens增4倍、序列长度增3倍,编程场景驱动长文本推理;4)任务目标从"生成文本"转向"完成复合任务",需规划、迭代、整合外部数据。对产业链的新要求:1)模型提供商:强化推理稳定性、工具适配能力、长上下文支持;2)基础设施商:优化长序列推理性能、支持工具集成与权限管理、构建多模型调度系统;3)开发者:设计agentic工作流,整合多模型与工具链,聚焦任务完成率而非单一响应质量;4)评估体系:从"事实准确性"转向"任务完成效率、推理一致性、工具协同效果"。

问题3:"灰姑娘玻璃鞋效应"的核心内涵是什么?这一现象对模型提供商的产品策略有哪些启示?

答案:核心内涵是:在LLM快速迭代的市场中,若新发布模型能精准契合某类高价值未被满足的用户需求(即"穿上玻璃鞋"),则该批早期用户会形成深度 workload-model 契合,产生技术与行为惯性,留存率显著高于后期用户,且难以被竞品替代;反之,若模型未找到核心契合场景,则无法形成稳定用户群。对产品策略的启示:1)聚焦"首发优势",针对未被满足的细分场景(如特定领域编程、沉浸式角色扮演)打造差异化能力,抢占 foundational 用户;2)重视早期用户反馈,快速迭代优化核心场景适配性,巩固 workload-model 契合度;3)避免"大而全",优先突破高价值窄场景,再拓展泛化能力;4)长期留存关键在于"持续契合",通过版本更新维持核心场景优势,而非仅依赖初始功能;5)针对不同区域用户需求定制化(如中国用户对编程、科技场景的高需求),提升区域市场契合度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/1 3:31:17

快速理解LCD显示屏驱动流程:5分钟掌握基本步骤

从零开始搞懂LCD驱动&#xff1a;一个嵌入式工程师的实战笔记最近项目里又碰上了LCD屏调不通的问题——上电黑屏、花屏乱码、显示偏移……这些“经典”故障几乎每个做嵌入式的人都踩过坑。你翻数据手册&#xff0c;发现初始化序列一长串命令和参数&#xff1b;示波器抓信号&…

作者头像 李华
网站建设 2025/12/29 3:53:25

办公文档预览革命:告别传统Office启动等待

办公文档预览革命&#xff1a;告别传统Office启动等待 【免费下载链接】QuickLook.Plugin.OfficeViewer Word, Excel, and PowerPoint plugin for QuickLook. 项目地址: https://gitcode.com/gh_mirrors/qu/QuickLook.Plugin.OfficeViewer 在日常工作中&#xff0c;你是…

作者头像 李华
网站建设 2025/12/29 3:50:36

智能内容提取革命:B站视频文字转换技术深度解析

在信息爆炸的时代&#xff0c;视频内容已成为知识传播的重要载体。然而&#xff0c;如何从海量视频中高效提取核心信息&#xff0c;成为内容工作者面临的共同挑战。Bili2text作为一款基于AI技术的智能转换工具&#xff0c;正在重新定义视频内容处理的工作流。 【免费下载链接】…

作者头像 李华
网站建设 2025/12/29 3:49:35

从零实现ES6函数扩展在Babel中的编译流程

从零实现 ES6 函数扩展在 Babel 中的编译流程当你的箭头函数在 IE11 里“消失”了你有没有遇到过这样的场景&#xff1f;写完一段优雅的现代 JavaScript&#xff0c;包含默认参数、剩余参数和箭头函数&#xff0c;在 Chrome 里跑得好好的。结果一部署到生产环境&#xff0c;IE1…

作者头像 李华
网站建设 2025/12/31 20:59:20

如何在NVIDIA显卡上运行PyTorch?使用CUDA-v2.6镜像轻松实现

如何在 NVIDIA 显卡上运行 PyTorch&#xff1f;使用 CUDA-v2.6 镜像轻松实现在深度学习项目中&#xff0c;最让人头疼的往往不是模型设计&#xff0c;而是环境配置——尤其是当你面对“CUDA 不可用”“cuDNN 版本不匹配”这类报错时。明明代码写得没问题&#xff0c;却因为底层…

作者头像 李华
网站建设 2025/12/29 3:48:57

从零实现MIPS/RISC-V ALU电路操作指南

从门电路到运算核心&#xff1a;手把手构建兼容MIPS与RISC-V的ALU你有没有想过&#xff0c;一条简单的add x1, x2, x3指令背后&#xff0c;CPU到底做了什么&#xff1f;在晶体管的微观世界里&#xff0c;并没有“加法”这个魔法命令——它靠的是一层层精心设计的数字逻辑&#…

作者头像 李华