135M参数也能推理！Tiny Reasoning Language Model开创小模型认知新范式-平芜编程栈

135M参数也能推理！Tiny Reasoning Language Model开创小模型认知新范式

【免费下载链接】trlm-135m项目地址: https://ai.gitcode.com/hf_mirrors/Shekswess/trlm-135m

导语

参数规模仅135M的Tiny Reasoning Language Model（trlm-135）通过三阶段训练实现推理能力跃升，在多个基准测试中超越同类模型，为边缘设备AI部署开辟新路径。

行业现状：从小而全到小而专的范式转移

2025年AI行业正经历从"参数竞赛"到"效率革命"的深刻转型。据行业数据显示，国内厂商发布的≤10B参数小模型占比已从2023年的23%飙升至2025年的56%，成为大模型版图中增长最快的赛道。这一趋势背后是企业面临的"算力成本陷阱"——Gartner数据显示60%企业因部署成本过高放弃大模型应用，而轻量级模型能将推理成本降低70%-90%，月均支出可控制在10万元以内。

与此同时，推理技术正成为AI落地的核心竞争力。《2025年度AI十大趋势报告》指出，大模型落地已进入"推理时间"，模型在多模态深度推理、自适应推理、边缘推理加速等方面的突破，正在推动人工智能从"语言智能"向解决行业难题的"任务智能"进化。

模型架构：三阶段训练打造小模型推理能力

trlm-135M基于SmolLM2-135M-Instruct构建，通过创新的三阶段训练 pipeline 实现推理能力的阶梯式提升：

第一阶段：基础指令微调
在58k样本的日常对话和指令数据上进行初步对齐，建立基本的指令遵循能力，为后续推理训练奠定基础。

第二阶段：推理轨迹训练
引入78k包含特殊"</think>"标记的推理样本，通过显式的步骤分解训练模型掌握多步推理逻辑。这种结构化训练使模型能够模拟人类思考过程，在数学问题和逻辑推理任务中表现出更清晰的解题思路。

第三阶段：偏好对齐优化
使用50k推理轨迹偏好对（chosen vs. rejected）进行直接偏好优化（DPO），显著提升模型输出的推理质量和一致性。这一阶段使模型能够区分优质推理路径与劣质路径，自主选择更合理的解题策略。

如上图所示，该图展示了trlm-135M的三阶段训练流程，从基础指令调优到专门的推理轨迹训练，再到偏好对齐优化，形成完整的推理能力培养路径。这一系统化训练方法使小模型也能获得显著的推理能力提升。

性能表现：小参数实现大突破

在标准基准测试中，trlm-135M展现出超越同规模模型的推理能力：

基准测试	trlm-135M	SmolLM2-135M-Instruct	提升幅度
ARC Challenge (平均)	40.61	37.3	+3.31
BBH (3-shot)	36.80	28.2	+8.6
GSM8K (5-shot)	2.59	1.4	+1.19
MMLU	34.95	29.3	+5.65

特别值得注意的是在BBH（Big Bench Hard）测试中8.6%的性能提升，该测试包含23个具有挑战性的推理任务，通常需要复杂的多步骤逻辑推理，这表明trlm-135M在处理困难问题时的显著优势。

技术价值：边缘智能的理想选择

trlm-135M的设计理念与2025年AI发展趋势高度契合。随着轻量化模型和边缘计算技术的成熟，AI能力正加速向手机、汽车、IoT设备等终端普及。这类135M参数级别的模型能够在本地设备上高效运行，解决了数据隐私、网络延迟和成本效率三大核心问题。

在实际部署中，trlm-135M展现出优异的硬件适配性：

支持CPU和低端GPU运行，无需高端计算资源
推理延迟可控制在毫秒级，满足实时交互需求
本地部署模式保护敏感数据，符合行业合规要求

这些特性使trlm-135M特别适合三类场景：

标准化流程任务：如客服对话、文档处理等重复性工作
高合规领域：金融交易、医疗诊断等隐私敏感场景
边缘与端侧设备：工业传感器、智能家居、移动终端等

行业影响：小模型开启AI普惠时代

trlm-135M的技术路径印证了"小模型是中国AI破局点"的行业判断。清华大学五道口金融学院报告指出，在特定场景中小模型的优化能力可超越国外通用模型，且成本效率更高，适合中小企业普及。

对于开发者社区，该模型提供了研究推理机制的理想实验平台。其开源特性使研究人员能够深入探索小模型推理能力的边界，为更高效的模型设计提供 insights。通过简单的API调用，开发者即可将推理能力集成到应用中：

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "hf_mirrors/Shekswess/trlm-135m" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) # 推理优化设置 inputs = tokenizer("你的问题", return_tensors="pt") outputs = model.generate(**inputs, temperature=0.6, top_p=0.95)