THINKSAFE：推理模型的自生成安全对齐-平芜编程栈

大型推理模型（LRM）通过在推理任务上利用强化学习（RL）生成长思维链（CoT），从而实现了卓越的性能。

然而，这种过度优化往往优先考虑合规性，使得模型容易受到有害提示词的影响。为了缓解这种安全性能下降的问题，近期的方法依赖于外部教师蒸馏，但这引入了分布差异，损害了模型的原生推理能力。

我们提出了ThinkSafe，一个无需外部教师的自生成对齐框架，用于恢复模型的安全对齐。我们的核心见解是：虽然追求合规性会抑制安全机制，但模型通常保留着识别危害的潜在知识。

ThinkSafe通过轻量级的拒绝引导来解锁这一潜力，指导模型生成分布内的安全推理轨迹。在这些自生成的响应上进行微调，能有效地重新对齐模型，同时最小化分布偏移。

在DeepSeek-R1-Distill和Qwen3上的实验表明，ThinkSafe在显著提升安全性的同时，保持了推理能力。值得注意的是，与GRPO相比，它以显著降低的计算成本实现了更优的安全性和可比的推理性能。

代码、模型和数据集已在 https://github.com/seanie12/ThinkSafe.git 开源。

你是否曾为论文选题而发愁？是否在深夜里对着空白文档无从下笔？又或是反复修改却始终达不到老师的要求？论文写作不仅是对知识的考验，更是对时间与精力的挑战。对于专科生而言，这更是一场艰难的旅程。而如今，…

李华

CV_UNet图像着色模型在微信小程序开发中的应用实战老照片焕新颜，技术让记忆更鲜活最近接了个有意思的需求：把老照片上色功能做到微信小程序里。用户上传黑白老照片，几秒钟就能看到彩色效果。这种让历史瞬间重现色彩的功能，真的很…

李华

目录系统架构设计数据采集与处理推荐算法实现用户行为分析系统功能模块性能优化安全与扩展性测试与评估技术栈清单开发技术路线源码lw获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！系统架构设计采用Django作为后端框架，结合大数据…

李华

Qwen3-ForcedAligner技术深挖：清音刻墨镜像中注意力对齐热力图可视化 1. 引言：从字幕对齐到注意力可视化在日常视频制作中，我们经常遇到这样的场景：一段精彩的演讲或访谈，需要添加精准的字幕。传统语音识别系统只能…

李华

BEYOND REALITY Z-Image在建筑可视化中的应用：概念设计快速呈现作为一名在AI和设计领域摸爬滚打了十来年的从业者，我见过太多设计师和建筑师在概念设计阶段被“表达”这件事折磨。一张张草图、一次次渲染，从想法到视觉呈现，中间…

李华

Magma智能体模型：一键生成多模态内容 1. 全文导读 Magma是当前多模态AI领域的一个重要突破，它不仅仅是一个简单的文本或图像生成模型，而是一个面向智能体的多模态基础模型。这个模型的核心价值在于能够理解文本和图像的组合输入&#xff0c…

李华