这两天看 AI 行业新闻,会发现很多人追问的问题变了。
林俊旸离开 Qwen 后创业,新实验室传出 20 亿美元估值;李彦宏在 Create 2026 上提出日活智能体数;腾讯那边,马化腾说 AI 的船现在站上去了,还坐不下去。三件事表面上分别属于人才、指标和大厂追赶,背后都绕不开一个问题:市场已经不满足于听模型水平有多强,开始追问这些输出到底能不能把事办完。
过去两年,AI 行业最常见的叙事是模型叙事。参数、榜单、上下文、Token、推理速度、价格,都是围绕模型本身展开。这个阶段很必要,因为没有模型水平,后面的产品想象都站不住。
但模型叙事有一个问题:它离真实使用太远。
用户不会因为一个模型消耗了很多 Token 就付费。企业也不会因为一次发布会说模型很强,就重写内部流程。能让人掏钱的场景更具体:客服少转一次人工,销售少查一遍资料,开发者少改一轮代码,运营能直接拿到可用素材,财务能提前看到异常。
AI 应用的竞争,正在从能回答转向能办事。
这张封面图把需求、流程和复盘放在同一条路径上,AI 应用的价值要落到可用成果里。
这个变化会重写很多判断。
看创业公司,不能只看创始人履历
顶级模型人才当然重要。林俊旸这样的研究者出来创业,资本愿意给很高估值,不难理解。Qwen 过去给阿里带来了技术声量和开源生态,一个参与过核心模型建设的人,本身就是稀缺资产。
但新公司下一步要证明的事情更靠后:模型输出能不能被组织成产品闭环,客户能不能持续用,反馈能不能回到迭代里。
如果做基础模型,要面对算力、数据、工程化和生态分发。大厂在这些地方有天然优势。创业公司如果正面打,资金压力会很重。
如果做世界模型、具身智能或 Agent model,故事空间更大,落地难度也更硬。物理世界的数据、硬件、场景、成本和安全责任,比聊天框复杂得多。投资人买的是未来概率,用户和客户看的会是今天能不能解决问题。
所以接下来评价 AI 创业公司,不能只问创始人是谁,还要问产品反馈从哪里来,任务闭环怎么形成,成本能不能随规模下降,客户为什么不能继续用大厂模型拼一个类似方案。
看大厂,不能只看有没有模型
腾讯的例子很典型。它有微信、QQ、游戏、广告、支付、云、文档、会议和企业协同,这些都是 AI 可以进入的真实场景。问题在于,场景多不等于 AI 心智强。
很多大厂做 AI,最容易变成给旧产品加一个按钮。用户点一下能总结、能生成、能问答,但原来的工作流没有变化。这个按钮有用,却很难变成新入口。
有价值的 AI 改造,往往会动到产品结构。客服系统如果只多一个问答框,价值很容易停在演示层;把问题识别、工单流转、知识库更新、人工接管、质检复盘串起来,才会碰到真实效率。代码工具只补全几行代码,替代的是局部敲字;参与需求拆解、接口查找、测试生成、代码审查和上线风险提示,才会进入开发流程。广告系统写几句文案只是素材起点,后面还要接上投放、转化和复盘。
大厂的优势是场景和分发,弱点是组织惯性。AI 要成为生产力,常常需要原来的业务部门改变流程、指标和权限。这比发布模型更难。
看指标,不能只看 Token 或活跃数
Token 是成本表,不是价值表。一个系统消耗了很多 Token,可能说明它业务量大,也可能说明链路低效。把 Token 当成绩,很容易鼓励无意义的调用。
日活智能体数比 Token 往前了一步。它至少开始问:有多少 agent 在真实运行。但这个指标也会被误用。一个每天自动跑很多次的低质量 agent,可能很活跃,却没有帮业务减少多少人工。一个频率不高但能处理关键审计、风控或决策支持的 agent,价值可能更大。
更稳的指标应该是一组组合。
任务完成率,说明智能体有没有把事情办完。
人工接管率,说明它能独立走多远。
单位任务成本,说明它是不是经济。
错误率和复核成本,说明它能不能进入严肃流程。
留存和复用率,说明用户是不是愿意把任务继续交给它。
这些指标合在一起,才接近 AI 应用的真实价值。只看一个数字,都会把团队带偏。
普通用户会怎么感受到这个变化
对普通用户来说,AI 应用下一阶段的差异,不会只体现在回答更聪明。更明显的差异,是它能不能少让你来回搬运信息。
现在很多 AI 工具仍然需要用户自己拆任务、复制材料、判断结果、整理格式、回填系统。它像一个聪明的实习生,但你还得一直盯着。
更成熟的 AI 应用,会主动进入任务链。你让它准备一次会议,它不只是写纪要模板,还会读取议题、拉取历史资料、整理分歧点、生成行动项、提醒负责人。你让它做一次竞品分析,它不只是给一段总结,还能沉淀来源、标出不确定信息、形成可复用表格。
任务流白板把需求、拆解、执行、复核、留痕串起来,适合判断一个工具是否真的进了工作链。
这就是能办成事的含义。用户到手的,应该是一件可以接着用的成果,而不只是一段看起来正确的话。
企业会更在意责任划分
AI 越接近真实工作,责任问题越明显。
订错票、写错合同条款、漏掉财务风险、生成有版权隐患的素材、把客户信息发到错误位置,这些都不是模型评分能解决的。企业会关心谁授权,谁复核,谁留痕,谁承担后果。
所以未来好用的 AI 产品,可能不会一味追求全自动。它会清楚地告诉用户:哪些步骤自动完成,哪些节点需要确认,哪些结果只做建议,哪些操作会留下审计记录。越是严肃场景,越需要这种分寸。
这也是很多 AI demo 到生产环境会掉速的原因。演示只要看起来顺畅,真实业务要考虑权限、合规、异常、责任和长期维护。
企业把 AI agent 放进业务前,至少要问清授权、复核、接管和成本,这些问题比自动化口号更关键。
下一轮竞争的关键词
模型水平仍然重要,但它会越来越像水电网络。更能拉开差距的,可能是任务设计、场景数据、成本控制、权限系统和复盘机制。
谁能把 AI 做成用户的默认动作,谁就能占入口。
谁能把智能体接进真实流程,谁就能拿到数据和留存。
谁能把错误率、接管率和成本讲清楚,谁就更容易进入企业预算。
谁只停留在发布会和榜单里,热度会很快被下一个模型盖过去。
AI 应用的下一轮竞争,不会结束模型竞赛,但会把问题问得更具体:它到底替谁完成了什么任务,完成得是否稳定,成本是否可承受,出错时有没有人兜底。
当行业开始认真回答这些问题,AI 才算从展示效果走向生产力。