Ling-mini-2.0：300+token/s的超高效推理模型-平芜编程栈

大语言模型领域再添新突破，inclusionAI团队正式开源Ling-mini-2.0，这款基于MoE（Mixture of Experts）架构的模型以160亿总参数实现仅14亿激活参数的高效推理，在H20部署环境下达成300+token/s的生成速度，同时性能媲美7-8B规模的密集型模型。

【免费下载链接】Ling-mini-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-mini-2.0

当前AI行业正面临性能与效率的双重挑战。一方面，企业对大模型的推理速度和部署成本提出更高要求，尤其在实时交互场景中，用户体验直接取决于响应速度；另一方面，开发者需要在有限计算资源下实现复杂任务处理能力。据相关数据显示，2025年全球AI基础设施支出预计增长45%，而模型效率优化被视为降低成本的关键路径。在此背景下，MoE架构凭借其"稀疏激活"特性成为平衡性能与效率的重要方向，但现有方案普遍存在专家路由效率不足、训练复杂度高等问题。

Ling-mini-2.0的核心创新在于其极致优化的稀疏激活架构。该模型采用1/32的激活比例设计，通过专家粒度优化、无辅助损失的sigmoid路由策略、MTP损失函数等技术组合，实现了"7倍等效密集型性能杠杆"。这意味着仅需14亿激活参数（非嵌入部分7.89亿），就能达到传统7-8B密集模型的性能水平。在数学推理（AIME 2025）、代码生成（LiveCodeBench）等专业评测中，该模型表现超越Qwen3-8B等同类产品，尤其在复杂逻辑链任务中展现出显著优势。

如上图所示，Ling-mini-2.0在MMLU-Pro、Humanity's Last Exam等知识密集型任务中，同时超越了 sub-10B 密集模型和更大规模的MoE模型。这种跨维度的性能优势，证明了其架构设计在知识掌握与推理能力上的均衡性。

速度表现上，该模型创造了新的效率标杆。在2000 token以内的简单问答场景中，生成速度达到300+token/s，是8B密集模型的2倍以上；随着上下文长度扩展至128K（通过YaRN技术实现），相对速度优势可提升至7倍。这一特性使其特别适合长文档处理、代码库分析等大上下文场景。

从图中可以看出，在不同上下文长度下，Ling-mini-2.0均保持显著的速度领先。当序列长度达到128K时，其推理效率优势尤为突出，这为处理超长文本提供了高效解决方案。

技术实现上，Ling-mini-2.0首次在该规模模型中整合了FP8混合精度训练方案，通过块级FP8缩放、FP8优化器等创新技术，实现比传统BF16训练30-120%的吞吐量提升。更值得关注的是，团队开源了从5T到20T token的全阶段预训练 checkpoint，为学术界提供了宝贵的模型演化研究素材。

该模型的推出将加速MoE架构在产业界的普及应用。对于云服务提供商，14亿激活参数的设计可显著降低推理成本；对于边缘设备场景，其300+token/s的速度为实时交互奠定基础；而开源的多阶段训练 checkpoint 则为小样本学习、持续预训练等研究方向提供新工具。据测算，采用Ling-mini-2.0替代传统8B模型，企业在同等硬件条件下可提升服务并发量2-3倍，或在相同服务规模下减少50%以上的GPU资源投入。

随着Ling-mini-2.0的开源，AI社区将获得一个兼具高性能与高效率的新型研究基座。其1/32稀疏激活设计、FP8训练技术栈、多阶段预训练策略等创新点，不仅为小尺寸MoE模型树立了新标杆，更可能推动大语言模型向"极致稀疏化"方向发展。未来，我们或将看到更多结合领域知识的专家路由优化，以及稀疏架构与专用硬件的深度协同，最终实现AI能力的"普惠化"部署。目前该模型已在HuggingFace和ModelScope开放下载，并提供vLLM、SGLang等部署方案，开发者可通过ZenMux平台直接体验其超高速推理能力。

【免费下载链接】Ling-mini-2.0项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-mini-2.0

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

ZLUDA完整配置指南：让非NVIDIA显卡轻松运行CUDA程序的终极方案

ZLUDA完整配置指南：让非NVIDIA显卡轻松运行CUDA程序的终极方案【免费下载链接】ZLUDA CUDA on Intel GPUs 项目地址: https://gitcode.com/GitHub_Trending/zl/ZLUDA 还在为没有NVIDIA显卡而无法运行CUDA程序烦恼吗？ZLUDA作为一款革命性的兼容层…

李华

5分钟上手ComfyUI_essentials：让AI图像处理变得像玩积木一样简单

5分钟上手ComfyUI_essentials：让AI图像处理变得像玩积木一样简单【免费下载链接】ComfyUI_essentials 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_essentials 还在为复杂的AI图像处理发愁吗？今天我要分享一个超实用的工具——ComfyU…

李华

8、利用网站列和内容类型组织列表与文档

利用网站列和内容类型组织列表与文档 1. 内容类型基础内容类型与文件格式相互独立。在文档库中，可为内容类型指定文档模板，用户创建该类型文档时，Windows SharePoint Services 会使用此模板。不过，用户仍能上传基于不同模板或不同文件类型的文档。例如，为项目所需文档…

李华

9、利用站点列、内容类型和功能组织列表与文档

利用站点列、内容类型和功能组织列表与文档 1. 站点列属性站点列有多个属性来定义它，包括名称和数据类型。站点列还是列组的成员，列组是用户定义的组，用于将列分类组织。站点列的名称在创建该站点列的范围内的所有列组中必须是唯一的。站点列可以使用 Windows SharePoi…

李华

VisualGGPK2：Path of Exile内容管理终极指南 - 免费工具完整教程

VisualGGPK2：Path of Exile内容管理终极指南 - 免费工具完整教程【免费下载链接】VisualGGPK2 Library for Content.ggpk of PathOfExile (Rewrite of libggpk) 项目地址: https://gitcode.com/gh_mirrors/vi/VisualGGPK2 想要轻松管理和编辑Path of Exile游…

李华

XOutput完全指南：3步让老旧游戏手柄在Windows系统重获新生

你是否曾经因为游戏手柄不被支持而烦恼？XOutput这款开源软件能够将系统的DirectInput输入转换为XInput标准，让那些不再兼容通用Windows平台的DirectInput设备也能像真正的Xbox 360手柄一样正常工作。无论是游戏板、模拟驾驶设备还是摇杆，都能…

李华