7位作者论文揭示：语言模型拒答行为由单一方向介导，凸显安全微调脆弱性-平芜编程栈

【arXiv相关信息】

可跳转至主内容，了解arXiv成为独立非营利组织的相关信息。arXiv衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持。这里还提供捐赠途径。

【搜索与快速链接】

可以进行搜索，搜索范围涵盖标题、作者、摘要等所有字段。还有快速链接，如登录、帮助页面、关于等。

【论文详情】

在计算机科学的机器学习领域，有一篇论文编号为arXiv:2406.11717 。该论文于2024年6月17日提交，最后于2024年10月30日修订（此版本为v3）。标题为“语言模型中的拒答行为由单一方向介导”，作者有安迪·阿迪蒂、奥斯卡·奥贝索、阿奎布·赛义德、丹尼尔·帕莱卡、尼娜·帕尼克瑟里、韦斯·格尼、尼尔·南达。可以查看该论文的PDF版本。

【论文摘要】

对话式大语言模型经微调可遵循指令并保障安全，能服从良性请求、拒绝有害请求，但拒答行为的潜在机制不太清楚。研究表明，在多达720亿参数的13种流行开源聊天模型中，拒答行为由一个一维子空间介导。具体而言，对每个模型都能找到一个单一方向，消除该方向会使模型无法拒绝有害指令，添加则会让模型面对无害指令也拒答。基于此发现，提出新颖白盒越狱方法，能精准禁用拒答功能且对其他能力影响最小。还从机制上分析了对抗性后缀如何抑制拒答介导方向的传播，研究结果凸显当前安全微调方法的脆弱性，也展示了通过理解模型内部机制开发控制模型行为实用方法的途径。

【学科分类与引用格式】

学科分类包括机器学习 (cs.LG)、人工智能 (cs.AI)、计算与语言 (cs.CL) 。引用格式有[arXiv:2406.11717] [cs.LG] ，或针对此版本使用 [arXiv:2406.11717v3] [cs.LG] ，还有。

【提交历史】

来自安迪·阿迪蒂，提交历史如下：[v1]于2024年6月17日，星期一，16:36:12 UTC（237 KB）；[v2]于2024年7月15日，星期一，11:53:41 UTC（183 KB）；[v3]于2024年10月30日，星期三，18:57:07 UTC（194 KB）。

【访问论文方式】

可以查看由安迪·阿迪蒂等7位作者撰写的论文的PDF版本，也可查看TeX源代码，还能查看许可协议。

【浏览与切换分类】

当前浏览上下文为机器学习 (cs.LG) ，可以进行上一篇、下一篇文章的切换，还有最新文章、近期文章、特定月份文章的查看。也能切换浏览分类，如计算机科学、人工智能 (cs.AI)、计算与语言 (cs.CL) 。

【参考文献与引用工具】

参考文献与引用工具包括NASA ADS、谷歌学术、语义学者等。还有导出BibTeX引用等操作。

【相关切换工具】

有参考文献浏览器切换、关联论文切换、Litmaps切换、scite.ai切换等，还有代码、数据与媒体相关的alphaXiv切换、代码链接切换等，以及演示相关的Replicate切换、Spaces切换等。

【相关论文推荐与工具】

有推荐器和搜索工具，如影响力图谱链接、CORE推荐器切换、IArxiv推荐器切换等，还可按作者、发表场所、机构、主题查找。

【arXivLabs相关】

arXivLabs是允许合作伙伴在网站上开发和分享新arXiv功能的框架。与arXivLabs合作的个人和组织需认同并接受开放、社区、卓越和用户数据隐私价值观，arXiv也只与遵守这些价值观的合作伙伴合作。若有能为arXiv社区增值的项目想法，可了解更多关于arXivLabs的信息。此外，还有关于本文作者认可者、禁用MathJax等相关内容，以及关于、帮助、联系arXiv、订阅arXiv邮件列表、版权、隐私政策、网络无障碍协助、arXiv运营状态等信息。

抖音无水印下载终极教程：3分钟掌握批量下载神器，轻松获取高清封面与视频

抖音无水印下载终极教程：3分钟掌握批量下载神器，轻松获取高清封面与视频【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication…