news 2026/5/11 3:39:23

反向工程构建高质量推理合成数据 | 直播预约

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
反向工程构建高质量推理合成数据 | 直播预约

主题

反向工程构建高质量推理合成数据

时间

2026.01.25 周日 22:00 北京时间
2026.01.25 周六 09:00 美东时间
2026.01.25 周六 06:00 美西时间

直播平台

微信视频号:

b站直播间:

Youtube直播间:

https://www.youtube.com/live/U0rDRX7ZkYM

内容介绍

近年来,深度推理(deep reasoning)在数学、编程等可验证任务上取得了显著进展,但将其迁移到创意写作、开放式问答等不可验证的开放生成场景仍面临关键瓶颈:缺乏高质量奖励模型、训练代价高;通过教师模型进行蒸馏则成本昂贵,并受制于教师模型的能力上限。我们提出REverse-Engineered Reasoning(REER):一种反向构建推理思维链的全新范式。不同于从用户请求出发进行正向试错或模仿来生成推理过程,REER 从已知的高质量答案出发,反问思考“什么样的思考过程最可能导出该答案?”具体而言,对 给定的输入与高质量参考答案,REER的目标是找到一条推理轨迹,使得困惑度(perplexity)最小:

我们进一步提出一种无梯度(gradient-free)的合成方法:从初始轨迹出发,对轨迹进行分段,基段落进行扩写与替换,并用PPL作为代理指标进行选择与终止,从而在无需可验证奖励、无需昂贵蒸馏的情况下,规模化合成高质量深度思考轨迹。 基于该流程,我们构建并开源 DeepWriting-20K:覆盖 25 类开放式任务的 20,000 条深度推理轨迹数据,并以此微调得到 DeepWriter-8B(基座 Qwen3-8B-Base)。在 LongBench-Write、HelloBench、WritingBench 等基准上,DeepWriter-8B 不仅显著超越同规模开源基线(如 LongWriter-8B),还在多项开放生成评测中达到与 GPT-4o、Claude 3.5/3.7 等强闭源模型相当的表现。 总的来说,我们的工作提供了一条面向开放式生成的“第三路径”:通过反向搜索重构潜在推理过程来补齐推理数据与训练信号缺口,为在不可验证领域构建可扩展的思考链与结构化思考提供了新的方向。

Reverse-Engineered Reasoning for Open-Ended Generation
论文地址:https://arxiv.org/pdf/2509.06160

嘉宾

阙浩然,北京大学一年级博士生,导师为张世坤。研究方向包括大语言模型推理、长文本生成、多模态数据集等。在多个会议发表工作并担任评审,包括ACL,NeuraIPS等。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

编辑:冯可蘅 华盛顿大学
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 16:11:03

效果惊艳!用PyTorch-2.x-Universal-Dev-v1.0完成人脸修复全流程演示

效果惊艳!用PyTorch-2.x-Universal-Dev-v1.0完成人脸修复全流程演示 1. 为什么选这个镜像做人脸修复?——开箱即用的深度学习生产力工具 你有没有试过为一个AI项目搭环境,结果卡在CUDA版本、PyTorch编译、mmcv兼容性上整整一天?…

作者头像 李华
网站建设 2026/5/8 20:31:50

轻量级音乐播放器MoeKoeMusic:无广告听歌的开源解决方案

轻量级音乐播放器MoeKoeMusic:无广告听歌的开源解决方案 【免费下载链接】MoeKoeMusic 一款开源简洁高颜值的酷狗第三方客户端 An open-source, concise, and aesthetically pleasing third-party client for KuGou that supports Windows / macOS / Linux :electro…

作者头像 李华
网站建设 2026/5/8 8:06:39

探索Python工作流引擎:企业级应用的架构解析与深度实践

探索Python工作流引擎:企业级应用的架构解析与深度实践 【免费下载链接】SpiffWorkflow A powerful workflow engine implemented in pure Python 项目地址: https://gitcode.com/gh_mirrors/sp/SpiffWorkflow Python工作流引擎是构建企业级应用的核心组件&a…

作者头像 李华
网站建设 2026/5/8 20:32:16

Sambert合成语音不自然?情感参考音频调优实战案例

Sambert合成语音不自然?情感参考音频调优实战案例 1. 为什么Sambert开箱即用却总“念得像机器人” 你是不是也遇到过这种情况:下载了号称“多情感”的Sambert语音合成镜像,输入一段文案,点下生成——结果出来的声音确实能读准字…

作者头像 李华
网站建设 2026/5/7 19:49:22

微信推文配图神器,3分钟做出专业级视觉效果

微信推文配图神器,3分钟做出专业级视觉效果 1. 为什么微信推文配图总卡在“抠图”这一步? 你是不是也这样: 写好一篇干货满满的微信推文,配图却成了最大拦路虎? 找设计师?等三天。 用PS手动抠图&#xff…

作者头像 李华
网站建设 2026/5/11 2:30:08

蜂鸣器驱动电路驱动高噪声环境报警装置操作指南

以下是对您提供的博文内容进行 深度润色与专业重构后的技术文章 。我以一名深耕工业嵌入式系统十余年的工程师兼技术博主身份,重新组织逻辑、强化工程语感、剔除AI腔调,并注入大量一线调试经验与设计权衡思考,使其更贴近真实研发场景中的技术分享风格——既有原理穿透力,…

作者头像 李华