上篇算完那笔 43 倍的账单之后,我一直在想一个问题:有没有办法让系统自动替我做选择?
不是"我该不该换便宜的模型"——这个问题没意义。便宜的解决不了复杂问题,贵的处理简单问题是浪费。
真正的问题是:**能不能不做这个选择?**
打车是怎么解决这个问题的?
这个问题其实不是新问题。有一个行业几十年前就遇到并解决了它。
打车。
当年你在路边招手打车的时候,来什么车坐什么车——桑塔纳也行,夏利也行。你不知道下一辆是什么,也没有选择权。
后来网约车出现了。打开 App,输入目的地,系统告诉你:
>快车 ¥15,舒适型 ¥28,专车 ¥45,豪华车 ¥88。
你根据自己的需求和预算,做一个决定。但关键来了——**系统帮你把所有选项和价格都列好了,还根据路况估算了时间。**
这个过程拆开看,包含三个步骤:
**第一步:知道你要去哪。**输入目的地,系统就知道路程多远、路况如何。
**第二步:知道每辆车的情况。**快车便宜但可能没空调,专车贵但服务好。系统知道每种车型的能力和价格。
**第三步:在预算内做最优匹配。**你赶时间就选专车,省钱就选快车。但如果路上特别堵,打车本身就慢——系统可能会建议你换地铁。
这三个步骤,缺一个都不行。
把同样的逻辑套到 LLM 上
如果把 LLM 路由当成一个"打车系统",事情突然就清晰了。
**第一步:知道你要问什么。**
输入的不是目的地,是一个 query。系统需要判断:这个问题是什么类型?涉及什么领域?需要多强的推理?
这不是简单的关键词匹配。"帮我写一段快速排序"和"分析快速排序在缓存不友好场景下的性能瓶颈"——两个问题都包含"快速排序",但前者任何模型都能写,后者需要真正懂计算机体系结构。
**第二步:知道每个模型的情况。**
每个 LLM 像一种车型:
旗舰模型(GPT-5.5、Claude Opus)→ 豪华专车:贵,但什么路都能跑
高端模型(Claude Sonnet、Gemini Pro)→ 舒适型:日常主力,性价比较好
中端模型(DeepSeek V4 Pro)→ 快车:大部分时候够用
经济模型(Qwen3.6 Flash、GPT-5.4 Nano)→ 拼车:便宜,短途专用
本地模型(Llama 8B、Qwen 9B)→ 共享单车:免费,但只能走短距离
问题不是"哪个模型最好",而是"这个问题该坐什么车"。
**第三步:在预算内做最优决策。**
这是最关键的。如果预算无限,所有问题都丢给 GPT-5.5,不用思考。但现实是预算有限的——1000 块钱要撑一个月。
这就涉及取舍。今天省一点,才能在遇到真正难题时"坐一次专车"。
系统要做的事情是:**在保证整体质量的前提下,让预算花在最需要的地方。**
所以,一个智能调度员需要三个能力
想清楚之后,我发现一个好的 LLM 路由系统必须同时具备三个核心能力:
能力一:问题难度预测
系统收到一个 query,必须能在调用模型之前,大概判断出这个问题的难度和领域。
不是事后诸葛亮——是在还没拿到答案的时候就要预测。
能力二:模型能力画像
系统必须知道每个模型擅长什么、不擅长什么。
而且这个画像不能是静态的。模型会更新、能力会变化、甚至同一模型在不同类型的问题上表现完全不同。画像必须是动态的、持续进化的。
能力三:预算约束下的决策
光知道问题和模型还不够。系统必须有一个决策机制,在总预算有限的前提下,决定"这一轮该选哪个模型"。
但这个决策不是孤立的——上一轮花了太多,这一轮收紧;上一轮省了不少,这一轮可以大方一点。**预算感知,而不是预算平分。**
三个能力拆开来看,每一个都是一个独立的技术问题。把它们串起来,就是一套完整的智能调度系统。
我决定做一个这样的系统!!!