DeepSeek-V3.2-Exp：稀疏注意力让长文本效率翻倍-平芜编程栈

DeepSeek-V3.2-Exp：稀疏注意力让长文本效率翻倍

【免费下载链接】DeepSeek-V3.2-ExpDeepSeek-V3.2-Exp是DeepSeek推出的实验性模型，基于V3.1-Terminus架构，创新引入DeepSeek Sparse Attention稀疏注意力机制，在保持模型输出质量的同时，大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当，支持HuggingFace、SGLang、vLLM等多种本地运行方式，开源内核设计便于研究，采用MIT许可证。【此简介由AI生成】项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.2-Exp

导语：DeepSeek推出实验性模型DeepSeek-V3.2-Exp，通过创新的稀疏注意力机制，在保持性能与V3.1-Terminus相当的前提下，显著提升长文本场景下的训练与推理效率。

行业现状：随着大语言模型应用场景的不断拓展，长文本处理能力已成为衡量模型实用性的关键指标。无论是法律文档分析、代码库理解还是多轮对话系统，都对模型的上下文窗口大小和处理效率提出了更高要求。然而，传统密集型注意力机制在处理长文本时面临计算成本呈平方级增长的瓶颈，如何在保持模型性能的同时提升效率，成为行业共同面临的挑战。近期，稀疏注意力、MoE（混合专家）等技术成为优化长文本处理效率的重要方向。

产品/模型亮点：

DeepSeek-V3.2-Exp作为DeepSeek下一代架构的中间探索成果，基于V3.1-Terminus架构，核心创新在于引入了DeepSeek Sparse Attention（DSA）稀疏注意力机制。这一机制实现了细粒度的稀疏化注意力，在长文本训练和推理效率上带来显著提升，同时几乎保持了与原模型相同的输出质量。

为验证稀疏注意力的实际效果，DeepSeek团队刻意保持了V3.2-Exp与V3.1-Terminus的训练配置一致。在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中，V3.2-Exp的表现与V3.1-Terminus基本相当。例如，在MMLU-Pro测试中两者均获得85.0分，GPQA-Diamond得分分别为80.7和79.9，证明了效率提升并未以牺牲性能为代价。在代码能力评估的Codeforces基准上，V3.2-Exp甚至取得了从2046到2121的分数提升。

在部署灵活性方面，该模型支持HuggingFace、SGLang、vLLM等多种本地运行方式，满足不同用户的技术栈需求。对于开发者和研究社区，DeepSeek提供了开源内核设计，包括TileLang的可读性内核和DeepGEMM、FlashMLA中的高性能CUDA内核，便于研究和二次开发。

行业影响：

DeepSeek-V3.2-Exp的推出，标志着国内大模型厂商在效率优化领域的持续探索取得实质性进展。稀疏注意力机制的成功应用，不仅降低了长文本处理的计算门槛，也为后续更大规模模型的训练和部署提供了新的技术路径。对于企业用户而言，效率提升意味着更低的硬件成本和更高的处理吞吐量，这将加速大语言模型在法律、医疗、教育等对长文本处理有强需求行业的落地应用。

开源策略和MIT许可证的采用，也将促进学术界和工业界对稀疏注意力机制的进一步研究和优化，推动整个行业在模型效率领域的技术进步。值得注意的是，DeepSeek团队在发布后及时发现并修复了推理代码中旋转位置编码（RoPE）的实现差异问题，体现了负责任的开源态度。

结论/前瞻：

DeepSeek-V3.2-Exp通过稀疏注意力机制在效率与性能之间取得了良好平衡，为长文本处理提供了更优解。这一实验性模型不仅是技术创新的展示，更是DeepSeek在大模型架构优化道路上的重要探索。随着模型效率的不断提升，大语言模型的应用场景将进一步扩展，尤其是在边缘计算、低资源环境下的部署成为可能。未来，我们有理由期待DeepSeek在下一代架构中带来更成熟、更高效的模型解决方案，推动大语言模型技术向更实用、更经济的方向发展。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

DeepSeek-V3.2-Exp：稀疏注意力让长文本效率翻倍

DeepSeek-V3.2-Exp：稀疏注意力让长文本效率翻倍

腾讯HY-MT1.5-1.8B技术解析：注意力机制优化

Campus-iMaoTai：智能茅台预约系统的自动化解决方案

手机端全能AI新选择：MiniCPM-o 2.6实测体验

HY-MT1.5-1.8B技术解析：小模型如何学习大模型

1.3万亿token！FineWeb-Edu教育数据最强助力

本地实时语音转文字系统搭建指南：WhisperLiveKit完整教程