news 2026/3/28 16:21:50

【每日Arxiv热文】北大新框架 Edit-R1 炸场!破解图像编辑 3 大难题,双榜刷 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【每日Arxiv热文】北大新框架 Edit-R1 炸场!破解图像编辑 3 大难题,双榜刷 SOTA

监督微调(SFT)的固有缺陷:现有模型多依赖 SFT 训练,易过拟合标注模式,导致泛化能力差(无法突破训练分布)、可控性不足(忽略复杂指令,仅重构输入),且依赖大规模但多样性低的数据集,进一步削弱跨任务的指令保真度。

l 强化学习(RL)在扩散模型中的应用瓶颈:RL 虽为模型对齐人类意图的潜在方向,但现有策略优化方法(如基于似然估计)存在系统偏差,且一阶 SDE 采样器需在“轨迹多样性”与“生成质量”间权衡,难以满足图像编辑对高保真和多样化探索的双重需求。

l 通用奖励模型的缺失:图像编辑指令和任务具有多样性,导致缺乏统一奖励模型。MLLM 虽适合主观评估,但现有 MLLM 评分方法存在缺陷:基于 Chain-of-Thought(CoT)的方法易引入暴露偏差且计算成本高,基于采样的方法信号稀疏,而领域微调需复杂数据集以避免偏差和灾难性遗忘,成本高昂。

image.png

2.研究目的

针对上述挑战,本研究旨在:

l 突破SFT 范式的泛化性与可控性限制,解决扩散模型结合 RL 时的策略优化偏差问题;

l 构建通用、低成本、低幻觉的奖励模型,避免依赖复杂数据集或引入额外偏差;

l 提出一套高效的训练后优化框架(Edit-R1),提升不同基础扩散模型(如 UniWorld-V2、Qwen-Image-Edit、FLUX.1-Kontext)在指令图像编辑任务中的性能与泛化能力,同时保证模型无关性(model-agnostic)。通过策略优化方法直接对齐生成过程与人类意图,避免对领域特定奖励模型的依赖。

3.核心贡献

l 提出Edit-R1 训练后优化框架:整合两种关键技术——DiffusionNegative-awareFinetuning(DiffusionNFT,一种与流匹配前向过程一致的无似然策略优化方法,支持黑箱采样器、decouple 训练与采样)和基于预训练 MLLM 的无训练奖励模型,实现扩散模型的高效微调。

l 验证奖励信号的人类对齐性:所设计的MLLM 奖励信号(非 CoT+logit-based 评分)无需训练或复杂推理,能提供与人类偏好高度对齐的反馈,兼具可靠性、低成本与低幻觉特性,有效稳定训练过程。

实证性能提升与泛化能力:实验表明,Edit-R1 可显著提升多种基础模型性能:在 ImgEdit 和 GEdit-Bench 基准上,UniWorld-V2 取得 SOTA 结果(分别为 4.49、7.83),FLUX.1-Kontext[Dev]微调后超越其 Pro 版本,Qwen-Image-Edit[2509]成为开源模型中的 SOTA;同时框架具有模型无关性,可适配不同基础模型。

4. 研究方法

本研究的核心方法围绕Edit-R1 框架展开,包含三大核心组件与完整流程:

l 策略优化:采用DiffusionNFT,一种基于流匹配前向过程的无似然策略优化方法,支持高阶采样器并避免偏差。

l 奖励设计:

使用MLLM 的非 CoTlogit 评分机制,直接计算得分令牌的期望值作为奖励。

通过任务定制化提示词(基础指令+ 任务指令)实现细粒度评估。

l 训练流程:

​​采样:利用 DPM-Solver 快速生成候选图像组。

​​评分:MLLM 对编辑结果进行隐式反馈打分。

​​优化:通过 DiffusionNFT 损失函数更新模型,结合组过滤机制剔除低方差高均值样本。

image.png

5.研究结果

5.1 基准测试性能

l ImgEdit 基准:UniWorld-V2 达到 SOTA(4.49 分),Qwen-Image-Edit 提升至 4.48 分,超越闭源模型(如 GPT-Image-1)。

l GEdit-Bench 基准:UniWorld-V2 取得 7.83 分,显著优于基线模型。

l 泛化能力:在域外数据上(如GEdit-Bench),所有基础模型均获得稳定提升。

5.2 人类偏好评估

用户研究表明,优化后的模型在指令遵循和图像质量上更受青睐。微调后的UniWorld-FLUX.1-Kontext 在“指令对齐”维度显著优于 FLUX.1-Kontext[Dev]与 Pro 版本,整体偏好度更高(图 6)。

5.3 消融实验结果

策略优化方法对比:在FLUX.1-Kontext[Dev]上,DiffusionNFT 在 ImgEdit 基准的性能显著优于 Flow-GRPO 及 Flow-GRPO+LocalStd(图 7)。

核心组件贡献:Qwen-Image-Edit[2509]上,仅 DiffusionNFT(7BMLLM)提升至 7.66,32BMLLM 进一步提升至 7.74,加入组过滤后达 7.76(表 3)。

image.png

6.总结与展望

本研究针对指令图像编辑的泛化性、可控性及奖励模型难题,提出Edit-R1 框架:通过 DiffusionNFT 实现无似然策略优化,结合无训练的 MLLM 奖励模型(非 CoT+logit-based),解决了 SFT 的过拟合与 RL 策略优化的偏差问题。该框架在 ImgEdit、GEdit-Bench 基准上取得 SOTA,可适配多种基础模型,且奖励信号与人类偏好高度对齐,为指令图像编辑提供了高效、通用的训练后优化方案。

【02 论文原文阅读】

您可以跳转到Lab4AI 平台上去阅读论文原文。

Lab4AI大模型实验室已经提供​该​​论文​,阅读链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq/_editr1&id=2b0294f7c8b14a099ced8cce7466f48d

​文末点击阅读原文​,即可跳转至对应论文页面。目前,论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800 算力作为奖励。

image.png

·Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;

·支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;

·论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

image.png

本文由AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/28 4:37:58

Open Interface:三分钟实现电脑全自动驾驶的终极指南

Open Interface:三分钟实现电脑全自动驾驶的终极指南 【免费下载链接】Open-Interface Control Any Computer Using LLMs 项目地址: https://gitcode.com/gh_mirrors/op/Open-Interface 还在为重复性电脑操作烦恼吗?想让AI助手帮你完成所有繁琐任…

作者头像 李华
网站建设 2026/3/25 11:14:04

PDFKit跨平台字体兼容性终极解决方案:完整指南

PDFKit跨平台字体兼容性终极解决方案:完整指南 【免费下载链接】pdfkit 项目地址: https://gitcode.com/gh_mirrors/pdf/pdfkit PDFKit作为Node.js生态中功能强大的PDF生成库,在实际跨平台部署中常常面临字体兼容性挑战。本文将提供一套完整的解…

作者头像 李华
网站建设 2026/3/25 8:20:06

三相维也纳整流器仿真手记

三相维也纳整流器的仿真模型。控制算法采用电压和电流双闭环控制。外部电压环路为PI控制器,内部电流环路为bang bang滞后控制器。 网侧单位功率因数运行,电网电流谐波非常小。最近在实验室折腾维也纳整流器的仿真模型,这拓扑结构确实有点意思…

作者头像 李华
网站建设 2026/3/21 6:06:21

BootstrapBlazor终极指南:快速构建现代化企业级应用

BootstrapBlazor终极指南:快速构建现代化企业级应用 【免费下载链接】BootstrapBlazor 项目地址: https://gitcode.com/gh_mirrors/bo/BootstrapBlazor BootstrapBlazor是基于Blazor和Bootstrap的开源UI组件库,为企业级应用开发提供了一套完整的…

作者头像 李华
网站建设 2026/3/27 1:21:35

【后端】【架构】企业服务治理平台架构:从0到1构建统一治理方案

📖目录1. 背景与痛点:为什么需要企业服务治理?2. 企业服务治理的定义与核心目标2.1 核心定义2.2 大白话解释2.3 关键目标3. 传统架构的痛点与困境3.1 烟囱式系统3.2 调用混乱3.3 权限管理低效3.4 缺乏监控4. 5大核心疑问与解决方案4.1 疑问1&…

作者头像 李华
网站建设 2026/3/20 13:27:43

当下的网络安全行业前景到底怎么样?还能入行分蛋糕吗?

常听到很多人不知道学习网络安全能做什么,发展前景好吗?今天我就在这里给大家介绍一下。网络安全作为目前比较火的朝阳行业,人才缺口非常大 先说结论,目前网络安全的前景还是很不错的 作为一个有丰富 Web 安全攻防、渗透领域老工…

作者头像 李华