零成本解锁MoE LLM嵌入能力：无需训练，直接提取高质量语义表示，附实战代码详解-平芜编程栈

深入解析Mixture-of-Experts (MoE) LLM如何免费获得嵌入模型能力，包括技术原理、实现方法和实际应用

摘要

–

本文深入解析了Mixture-of-Experts (MoE) LLM作为嵌入模型的创新应用。传统观点认为解码器模型无法用于嵌入提取，但最新研究发现MoE模型的路由权重能够提供互补信息，使其无需额外训练即可执行各种嵌入任务。通过MoE Embedding (MoEE)技术，我们能够利用预训练的MoE模型获得高质量的语义表示，为自然语言处理任务提供新的解决方案。

1. 引言

1.1 研究背景

在自然语言处理领域，嵌入模型是理解文本语义的核心技术。传统的嵌入模型通常基于编码器架构，能够通过双向注意力机制捕获丰富的语义信息。然而，随着大语言模型的快速发展，特别是基于Transformer的解码器模型，人们开始探索这些模型是否也能用于嵌入提取。

1.2 技术挑战

解码器模型使用因果注意力机制，只能与前面的词符交互，这限制了其捕获上下文信息的能力。因此，传统观点认为解码器模型不适合作为嵌入模型使用。

1.3 突破性发现

最新研究《Your Mixture-of-Experts LLM is Secretly an Embedding Model for Free》揭示了一个重要发现：MoE模型的路由权重包含丰富的语义信息，能够与解码器嵌入形成互补，使MoE模型无需额外训练即可执行嵌入任务。

2. Mixture-of-Experts (MoE) 架构解析

2.1 MoE基本概念

Mixture-of-Experts是一种包含多个称为"专家"的子网络的架构，每个专家专门处理不同的任务或数据方面。MoE的主要优势在于能够以更少的计算资源预训练相同或更大规模的模型，同时保持或提高质量。

2.2 MoE架构组成

2.2.1 MoE层

MoE在Transformer架构中用MoE层替换前馈网络(FFN)层。每个MoE层包含多个专家，每个专家由简单的FFN层组成。注意，Transformer中的其他组件（如自注意力层）共享相同的权重。

2.2.2 门控网络

门控网络或路由器是MoE中的关键组件，它接收输入词符并为每个词符选择最相关的专家。门控网络通常选择与给定词符最相关的top-k专家，并将词符发送给选定的专家。

2.3 专家选择机制

门控网络使用softmax函数计算专家的重要性概率，并保留top-k概率专家。门控网络有自己的权重，我们应用softmax函数到输入词符与门控网络权重的点积结果上，然后获得专家与给定词符相关性的概率。

3. MoE作为嵌入模型的工作原理

3.1 嵌入模型基础

嵌入是深度学习模型中输入数据的内部表示，具有语义和压缩的数据信息。我们通常提取神经网络的最后一个隐藏状态作为嵌入。

3.2 传统方法的局限性

传统上，我们使用基于编码器的模型来提取嵌入，因为它们可以通过双向注意力捕获语义。解码器模型使用因果注意力，只能与前面的词符交互，因此无法捕获丰富的语义信息。

3.3 MoE的创新机制

研究发现，MoE中的路由权重为解码器嵌入提供了互补信息。每个层的路由权重反映了对输入词符的推理选择，因此包含隐藏状态嵌入可能丢失的输入语义信息。

3.4 数学表达

路由权重的数学表达为：

g(H) = softmax(HW_g^T)

其中g是softmax函数，H表示隐藏状态。我们连接所有MoE层的路由权重，以避免丢失模型的推理选择。

4. MoE Embedding (MoEE) 技术实现

4.1 MoEE的两种方法

4.1.1 基于连接的组合方法

这种方法简单直接，我们只需连接路由权重和解码器嵌入。作者将这种方法称为MoEE(concat)，它能够保留每个路由权重捕获的独特信息，同时允许下游任务利用组合表示。

4.1.2 加权和集成方法

这种方法执行从路由权重和隐藏状态(HS)嵌入计算的相似性分数的加权和，表示为MoEE(sum)。这种方法适用于比较两个句子的任务，如语义文本相似性。

4.2 PromptEOL技术增强

作者利用PromptEOL技术来增强MoEE。该技术使用特定的提示模板来约束LLM预测下一个词符中的语义信息。

4.3 性能表现

MoEE with PromptEOL在MTEB任务上的表现优于监督和自监督方法。虽然这个排行榜不是最新的，但这种方法的价值在于我们可以在不进行任何额外训练的情况下获得嵌入任务的体面结果。

5. 实际应用：与BERTopic集成的主题聚类

5.1 环境配置

5.1.1 系统要求

• Python 3.10

• Ubuntu 20.04 with CUDA 12.4

• 16 GB VRAM • 32 GB RAM用于下载模型权重

5.1.2 依赖安装

conda create -n moee python=3.10 -y conda activate moee pip install transformers torch bitsandbytes bertopic accelerate

5.2 模型加载

kwargs = { "base_model": 'allenai/OLMoE-1B-7B-0924', "normalized": False, "torch_dtype": torch.bfloat16, "mode": "embedding", "pooling_method": "mean", "attn_implementation": "sdpa", "attn": "bbcc", } config = { 'embed_method': 'prompteol', 'emb_info': 'MoEE' } embedding_model = MOEE(model_name_or_path='allenai/OLMoE-1B-7B-0924', **kwargs)

5.3 数据集准备

from sklearn.datasets import fetch_20newsgroups docs = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))['data'] dataset = MyDataset(docs) dataloader = DataLoader(dataset=dataset, batch_size=8) embeddings = None for batch in tqdm(dataloader): with torch.no_grad(): embedding = embedding_model.encode(batch, **config) if embeddings isNone: embeddings = embedding[0] else: embeddings = np.vstack((embeddings, embedding[0])) torch.cuda.empty_cache()

5.4 主题建模实现

# 步骤2 - 降维 umap_model = UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine') # 步骤3 - 聚类降维后的嵌入 hdbscan_model = HDBSCAN(min_cluster_size=15, metric='euclidean', cluster_selection_method='eom', prediction_data=True) # 步骤4 - 主题标记化 vectorizer_model = CountVectorizer(stop_words="english") # 步骤5 - 创建主题表示 ctfidf_model = ClassTfidfTransformer() # 步骤6 - 使用bertopic.representation模型微调主题表示 representation_model = KeyBERTInspired() # 所有步骤组合 topic_model = BERTopic( embedding_model=embedding_model, # 步骤1 - 提取嵌入 umap_model=umap_model, # 步骤2 - 降维 hdbscan_model=hdbscan_model, # 步骤3 - 聚类 vectorizer_model=vectorizer_model, # 步骤4 - 标记化 ctfidf_model=ctfidf_model, # 步骤5 - 提取主题词 representation_model=representation_model # 步骤6 - 微调主题表示 ) # 使用BERTopic模型进行主题建模 topics, probs = topic_model.fit_transform(docs, embeddings)

5.5 结果分析

通过默认设置，我们获得了42个主题。即使随机选择主题，它也能很好地捕获语义。主题聚类可视化显示，相关主题在空间中聚集在一起，证明了MoEE的有效性。

6. 技术优势与创新点

6.1 无需额外训练

•预训练模型利用：直接使用现有的MoE模型，无需额外训练

•成本效益：节省了训练嵌入模型的巨大计算成本

•即插即用：模型加载后即可开始使用

6.2 语义信息互补

•路由权重贡献：路由权重提供解码器嵌入可能丢失的语义信息

•推理选择保留：保留了模型在处理输入时的推理选择

•综合表示：结合两种信息源形成更全面的嵌入表示

6.3 性能表现

•竞争性结果：在MTEB任务上达到与监督方法相当的性能

•多样化任务支持：支持各种嵌入任务，包括语义相似性、主题建模等

•可扩展性：适用于不同规模的MoE模型

7. 应用场景与扩展性

7.1 核心应用场景

•语义搜索：利用MoEE进行高效的语义搜索和检索

•文档聚类：基于语义相似性对文档进行自动聚类

•推荐系统：为内容推荐系统提供语义理解能力

•问答系统：增强问答系统的语义匹配能力

7.2 技术扩展方向

•多模态集成：扩展到图像、音频等多模态数据

•领域适应：针对特定领域进行微调优化

•实时处理：支持流式数据的实时嵌入提取

•分布式部署：支持大规模分布式部署

8. 性能评估与优化

8.1 评估指标

•语义相似性：在STS基准测试上的性能

•主题建模质量：主题聚类的准确性和一致性

•计算效率：嵌入提取的速度和资源消耗

8.2 优化策略

•模型量化：使用bitsandbytes等工具减少内存占用

•批处理优化：优化批处理大小以提高吞吐量

•缓存机制：实现嵌入结果的缓存以减少重复计算

9. 挑战与限制

9.1 技术挑战

•内存需求：MoE模型通常需要较大的VRAM

•计算复杂度：路由计算增加了推理时间

•模型兼容性：需要确保MoE模型支持路由权重提取

9.2 当前限制

•性能上限：与专门训练的嵌入模型相比仍有一定差距

•任务特定性：某些任务可能需要特定的优化策略

•评估标准：缺乏统一的评估框架

10. 未来发展方向

10.1 技术演进

•架构优化：设计更适合嵌入任务的MoE架构

•训练策略：探索联合训练MoE和嵌入任务的方法

•多任务学习：同时优化多个下游任务

10.2 应用扩展

•跨语言应用：扩展到多语言嵌入任务

•领域特定优化：针对医疗、法律等特定领域进行优化

•实时系统集成：集成到实时NLP系统中

11. 结论

本文详细介绍了MoE LLM作为嵌入模型的创新应用。通过利用MoE模型的路由权重，我们能够在无需额外训练的情况下获得高质量的语义表示，为自然语言处理任务提供了新的解决方案。

主要贡献

▶技术突破：首次发现MoE模型的路由权重可用于嵌入任务

▶方法创新：提出了MoEE技术，有效结合路由权重和解码器嵌入

▶实用价值：为资源受限的环境提供了高质量的嵌入解决方案

▶应用示范：通过BERTopic集成展示了实际应用效果

技术价值

MoEE技术展示了预训练模型的潜力，为自然语言处理领域提供了新的研究方向。通过合理利用模型的内在结构，我们能够获得超出预期的能力，这为AI模型的设计和优化提供了重要启示。

未来展望

随着MoE技术的不断发展，我们期待看到更多创新的应用。未来的研究方向包括提升MoEE的性能、扩展到更多任务类型、优化计算效率，以及探索在其他架构中的应用可能性。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例：带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

0690+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…