【arXiv相关信息】
可跳转至主内容,了解arXiv成为独立非营利组织的相关信息。arXiv衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持。这里还提供捐赠途径。
【搜索与快速链接】
可以进行搜索,搜索范围涵盖标题、作者、摘要等所有字段。还有快速链接,如登录、帮助页面、关于等。
【论文详情】
在计算机科学的机器学习领域,有一篇论文编号为arXiv:2406.11717 。该论文于2024年6月17日提交,最后于2024年10月30日修订(此版本为v3)。标题为“语言模型中的拒答行为由单一方向介导”,作者有安迪·阿迪蒂、奥斯卡·奥贝索、阿奎布·赛义德、丹尼尔·帕莱卡、尼娜·帕尼克瑟里、韦斯·格尼、尼尔·南达。可以查看该论文的PDF版本。
【论文摘要】
对话式大语言模型经微调可遵循指令并保障安全,能服从良性请求、拒绝有害请求,但拒答行为的潜在机制不太清楚。研究表明,在多达720亿参数的13种流行开源聊天模型中,拒答行为由一个一维子空间介导。具体而言,对每个模型都能找到一个单一方向,消除该方向会使模型无法拒绝有害指令,添加则会让模型面对无害指令也拒答。基于此发现,提出新颖白盒越狱方法,能精准禁用拒答功能且对其他能力影响最小。还从机制上分析了对抗性后缀如何抑制拒答介导方向的传播,研究结果凸显当前安全微调方法的脆弱性,也展示了通过理解模型内部机制开发控制模型行为实用方法的途径。
【学科分类与引用格式】
学科分类包括机器学习 (cs.LG)、人工智能 (cs.AI)、计算与语言 (cs.CL) 。引用格式有[arXiv:2406.11717] [cs.LG] ,或针对此版本使用 [arXiv:2406.11717v3] [cs.LG] ,还有 。
【提交历史】
来自安迪·阿迪蒂,提交历史如下:[v1]于2024年6月17日,星期一,16:36:12 UTC(237 KB);[v2]于2024年7月15日,星期一,11:53:41 UTC(183 KB);[v3]于2024年10月30日,星期三,18:57:07 UTC(194 KB) 。
【访问论文方式】
可以查看由安迪·阿迪蒂等7位作者撰写的论文的PDF版本,也可查看TeX源代码 ,还能查看许可协议。
【浏览与切换分类】
当前浏览上下文为机器学习 (cs.LG) ,可以进行上一篇、下一篇文章的切换,还有最新文章、近期文章、特定月份文章的查看。也能切换浏览分类,如计算机科学、人工智能 (cs.AI)、计算与语言 (cs.CL) 。
【参考文献与引用工具】
参考文献与引用工具包括NASA ADS、谷歌学术、语义学者等。还有导出BibTeX引用等操作。
【相关切换工具】
有参考文献浏览器切换、关联论文切换、Litmaps切换、scite.ai切换等,还有代码、数据与媒体相关的alphaXiv切换、代码链接切换等,以及演示相关的Replicate切换、Spaces切换等。
【相关论文推荐与工具】
有推荐器和搜索工具,如影响力图谱链接、CORE推荐器切换、IArxiv推荐器切换等,还可按作者、发表场所、机构、主题查找。
【arXivLabs相关】
arXivLabs是允许合作伙伴在网站上开发和分享新arXiv功能的框架。与arXivLabs合作的个人和组织需认同并接受开放、社区、卓越和用户数据隐私价值观,arXiv也只与遵守这些价值观的合作伙伴合作。若有能为arXiv社区增值的项目想法,可了解更多关于arXivLabs的信息。此外,还有关于本文作者认可者、禁用MathJax等相关内容,以及关于、帮助、联系arXiv、订阅arXiv邮件列表、版权、隐私政策、网络无障碍协助、arXiv运营状态等信息。