36氪专访预约通道：讲述VibeThinker创业背后的故事-平芜编程栈

VibeThinker-1.5B：小模型如何在数学与编程推理中“以小博大”？

在大模型动辄千亿参数、训练成本破百万美元的今天，一个仅用不到8000美元训练、参数量只有15亿的AI模型，竟然能在国际数学竞赛和算法题库上击败数十倍于它的对手——这听起来像是一场技术逆袭剧的开场。但事实是，微博团队开源的VibeThinker-1.5B-APP正在用实力改写人们对“智能必须庞大”的固有认知。

这个模型不追求成为下一个ChatGPT，也不参与通用对话的军备竞赛。它专注一件事：高强度逻辑推理。无论是AIME（美国数学邀请赛）里的组合证明题，还是LeetCode上的动态规划难题，它都能一步步推导出解法，甚至写出带注释、可运行的代码。更令人惊讶的是，它可以在一张RTX 3090上流畅运行——这意味着你不需要拥有数据中心级别的资源，也能拥有一套高性能推理引擎。

小模型为何能赢？任务聚焦+数据提纯

传统语言模型走的是“通才路线”：先在海量网页文本上预训练，再通过指令微调适应多种任务。而VibeThinker反其道而行之，从一开始就锚定两个高门槛领域——数学推理与算法编程。

它的训练语料不是维基百科或社交媒体内容，而是来自AIME、HMMT、Codeforces等平台的真实题目与高质量解答。这些数据经过严格清洗与结构化处理，确保每一条都具备清晰的问题定义、严谨的推导过程和正确的最终答案。换句话说，它不是在“读万卷书”，而是在“刷千道真题”。

这种“定向投喂”策略极大提升了单位数据的信息密度。尽管总训练token数远低于主流大模型，但由于每一句话都在强化逻辑链条构建能力，模型在特定任务上的收敛速度和泛化表现反而更优。

更重要的是，团队采用了多步推理链建模机制。不同于直接输出答案的做法，VibeThinker会自动生成包含中间步骤的完整解题流程。比如面对一道数列求和题，它不会跳过归纳假设直接给出公式，而是明确写出：

“我们尝试使用数学归纳法。
当n=1时，左边 = 1，右边 = (1×2)/2 = 1，成立。
假设当n=k时成立，则对于n=k+1……”

这种设计不仅提高了准确性——因为错误更容易被中间环节暴露出来——还增强了结果的可解释性，使其更适合教育场景中的辅助教学。

它是怎么思考的？拆解两大核心能力

数学推理：从问题识别到符号演算

VibeThinker处理数学问题的过程可以分为四个阶段：

问题解析：提取关键对象（如函数f(x)、集合S）、约束条件（如“x为正整数”）和目标（如“证明存在唯一解”）；
知识匹配：激活内部存储的经典定理模板，例如均值不等式、鸽巢原理或费马小定理；
符号推演：执行代数变换、递归展开或极限估算；
自然语言整合：将形式化推导转化为连贯叙述，形成人类可读的证明文本。

举个例子，在AIME25的一道几何题中，模型成功识别出需要构造辅助圆，并引用“圆周角恒定”性质完成角度转化。整个过程没有依赖图像输入，完全基于文字描述的空间想象建模——这对小模型而言极为罕见。

编程生成：不只是抄模板，而是理解算法本质

在代码生成方面，VibeThinker的表现同样超出预期。它不仅能写出语法正确的Python或C++程序，还能根据题目特征自动选择最优算法策略。

以下是一个典型交互示例：

""" Problem: Given an integer array nums, find the contiguous subarray (containing at least one number) which has the largest sum and return its sum. """ def max_subarray_sum(nums): """ 使用Kadane算法求最大子数组和 时间复杂度：O(n) 空间复杂度：O(1) """ if not nums: return 0 current_sum = max_sum = nums[0] for i in range(1, len(nums)): current_sum = max(nums[i], current_sum + nums[i]) max_sum = max(max_sum, current_sum) return max_sum

注意，模型并没有简单地复现某个记忆片段，而是准确命名了Kadane算法，并标注了时间复杂度分析。这说明它已经掌握了该问题的本质结构：局部最优与全局最优的动态更新关系。

在LiveCodeBench v6测试集中，其得分达到51.1，略高于参数更大的Magistral Medium（50.3），尤其是在图论与字符串处理类题目上展现出更强的拆解能力。

性能对比：性价比碾压同级模型

维度	VibeThinker-1.5B	GPT OSS-20B Medium
参数量	1.5B	≥20B
训练成本	$7,800	>$100,000
部署要求	单卡消费级GPU（如RTX 4090）	多卡A100/H100集群
AIME25得分	74.4	~70.0
LiveCodeBench v6	51.1	接近但未超越

数据来源：官方评测报告（AIME24/AIME25/HMMT25/LiveCodeBench）

这张表揭示了一个趋势：随着任务专业化程度提高，单纯堆叠参数带来的边际收益正在下降。而通过精细化训练策略，小模型完全可以在特定赛道实现“弯道超车”。

尤其值得注意的是部署门槛。由于模型体积小、内存占用低，开发者无需依赖云服务即可本地部署。一位个人开发者告诉我：“我用家里的游戏本跑起来了，虽然慢一点，但确实能解出八成以上的中等难度LeetCode题。”

实际怎么用？一套轻量级推理工作流

典型的使用流程如下：

graph TD A[准备环境] --> B[拉取Docker镜像] B --> C[启动推理服务] C --> D[设置系统提示词] D --> E[提交英文问题] E --> F[获取分步解答] F --> G[验证结果]

具体操作建议：

务必设置角色提示词：例如输入“You are a competitive programming expert”或“You are a math tutor”，以激活对应的推理模式；
优先使用英文提问：实验表明，英文环境下推理链断裂率更低，语言一致性更强；
控制输入长度：避免一次性提交过于复杂的复合问题，建议拆分为多个子任务逐步求解；
人工复核关键输出：虽然整体准确率较高，但在边界情况（如浮点精度、极端输入）下仍有一定错误率（约10%-15%）。

目前可通过GitCode平台一键下载官方镜像，推荐配置为至少16GB显存的NVIDIA GPU（如RTX 3090/4090）。对于无GPU设备，也可启用CPU推理模式，但响应时间将显著延长。

谁真正受益？三类核心用户画像

教育机构与竞赛辅导老师
可将其集成至在线判题系统，不仅判断对错，更能生成详细讲评。一名高中信息学教练表示：“以前批改作业要花两小时，现在模型自动生成解析，我可以专注于讲解思路误区。”
初创公司与独立开发者
在有限预算下搭建高性能AI服务成为可能。已有团队尝试将其嵌入编程学习App，实现“提问即讲解”的互动体验。
边缘计算与嵌入式AI厂商
模型的小尺寸特性使其有望作为推理内核集成进本地化设备，例如智能白板、离线学习终端或工业控制系统中的自动化脚本生成模块。

当然也要清醒认识到局限性：这不是一个通用对话模型，无法胜任闲聊、创作或常识问答；其训练数据主要来自公开竞赛题，商用前需评估潜在版权风险；项目目前为实验性发布，尚未承诺长期维护。