news 2026/3/28 14:57:15

NEFTune:加入噪声的嵌入提升指令微调效果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NEFTune:加入噪声的嵌入提升指令微调效果

摘要

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。即使是如 LLaMA-2-Chat 这类经过 RLHF 进一步优化的强大模型,也能从 NEFTune 的进一步训练中受益。

1 引言

大型语言模型(LLM)遵循详细指令的能力,是其实用性的核心。生成式语言模型通常在原始网页数据上预训练,随后在一小部分经过精心筛选的指令数据上进行微调。指令微调是驯服 LLM 能力的关键,而模型的实用性在很大程度上取决于我们如何最大化地利用这些有限的指令数据集。

本文提出,在微调的前向传播过程中,向训练数据的嵌入向量添加随机噪声。我们展示了这一简单技巧能够显著提升指令微调的效果,且无需额外计算或数据成本。Noisy Embedding Instruction Fine Tuning(NEFTune)虽然方法简单,但对下游对话质量有着显著影响。当一个原始 LLM(如 LLaMA-2-7B)在带噪嵌入下进行微调,其在 AlpacaEval 上的表现从 29.8% 提升至 64.7%(见图 1)——实现了约 35 个百分点的惊人提升(Touvron et al., 2023b;Dubois et al.,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 10:44:12

告别高延迟:构建高效VSCode Agent HQ工作环境的6大核心配置

第一章:VSCode Agent HQ 性能优化的核心价值在现代软件开发中,编辑器性能直接影响开发者的工作效率与体验。VSCode Agent HQ 作为集成开发环境中的智能代理核心,其性能优化不仅提升了响应速度,还显著降低了资源占用,使…

作者头像 李华
网站建设 2026/3/25 16:06:26

Keil5安装教程通俗解释:五分钟搞懂关键步骤

五分钟搞懂 Keil5 安装:从零开始搭建嵌入式开发环境 你是不是刚接触STM32,打开电脑准备写第一行代码时,却被“Keil怎么装?”这个问题卡住了? 别急。虽然网上教程不少,但很多只是机械地告诉你“下一步、下…

作者头像 李华
网站建设 2026/3/28 2:12:52

为什么你的VSCode聊天功能越用越慢?,一文看懂资源占用真相

第一章:为什么你的VSCode聊天功能越用越慢?在使用 VSCode 的集成聊天功能(如 GitHub Copilot Chat 或其他 AI 插件)时,许多开发者反馈随着使用时间增长,响应速度明显变慢。这一现象通常并非网络问题&#x…

作者头像 李华
网站建设 2026/3/26 21:44:48

提升团队编码效率的关键:VSCode行内聊天性能优化的7个黄金法则

第一章:VSCode行内聊天性能优化的背景与意义 随着现代软件开发对协作效率要求的不断提升,集成开发环境(IDE)逐渐从单一代码编辑工具演变为集成了通信、调试、版本控制等多功能的一体化平台。VSCode 作为当前最流行的开源编辑器之一…

作者头像 李华