news 2026/5/20 9:29:33

顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!

论文链接:https://ieeexplore.ieee.org/abstract/document/11206511
代码链接:https://github.com/bytedance/RealCustom
项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/
Hugging Face: https://huggingface.co/bytedance-research/RealCustom

亮点直击

  • 突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;

  • 曾作为即梦线上主体保持生成算法广泛应用;

研究动机

现有范式将主体表示为一个伪词(例如),并将其与文本结合用于生成。伪词本身存在固有冲突(即,会导致其他真实词语偏离其原有语义)和纠缠(即,影响范围与文本有重叠),从而产生了双最优悖论:主体相似性与文本可控性之间存在权衡。

我们提出RealCustom++ 的真词定制化生成新范式,首先将主体表示为真实词语(例如主体的超类别词),在引导分支中生成引导图像,并获得主体引导掩码。随后,在生成分支中,主体仅在掩码范围内发挥影响,而其他区域则完全由文本控制,从而同时实现了高主体相似性和文本可控性。

方法优势

  • 生成图像的主体区域与参考图高度一致,非主体区域则完全不受参考图影响,实现主体保持的一致性和文本可控性的协同统一。

  • 高度灵活:通过在推理阶段选择不同的单词,我们方法实现了灵活通用的任意层次的主体/主体群的精准保持生成。

技术方案

RealCustom++ 采用了一种全新的“训练-推理”解耦框架,拜托了对主体保持的配对数据依赖:
(1)在训练阶段,RealCustom++学习视觉条件与文本中所有真实词语之间的通用对齐关系。具体实现包括:通过跨层跨尺度投影器(CCP)提取细粒度且鲁棒的主体表征,以及通过课程式训练策略(CTR) 平滑且高效地注入主体表征。
(2)在推理阶段,RealCustom++提出了由自适应掩码引导(AMG)机制连接的双分支架构。其中,引导分支生成主体引导掩码,生成分支则利用该掩码,仅在与主体相关的区域内定制生成特定真实词语。

效果对比

我们在单主体保持和多主体保持效果上都显著超越了SOTA方法。

结论

本文提出了RealCustom++这一创新定制范式,首次通过真实词汇无冲突地表征主体,实现了主体相似性与文本可控性的精准解耦。该范式通过训练-推理解耦框架内的渐进式定制过程,将目标真实词汇从通用概念逐步细化为具体主体。RealCustom++采用跨层跨尺度投影器与渐进式课程训练策略,实现了鲁棒的特征提取及姿态与尺寸的多样性。在推理阶段,自适应掩码指导技术能准确定制目标真实词汇,同时有效保留主体无关区域。我们进一步通过多真实词汇定制算法将RealCustom++扩展至多主体场景。大量实验表明,该方法在单主体与多主体的实时开放域定制任务中,在主体相似性与文本可控性方面均达到了最先进的性能水平。

参考文献

[1] RealCustom++: Representing Images as Real Textual Word for Real-Time Customization

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 8:47:57

11、Windows 8 应用开发:界面、数据绑定与生命周期管理

Windows 8 应用开发:界面、数据绑定与生命周期管理 1. 可视化组件与按需用户界面 在 Windows 8 应用开发中,可视化组件能够覆盖众多常见场景。你可以从第三方供应商、开源项目以及博客文章中找到更多现成的 Windows 应用商店可视化组件。随着对 Windows 8 开发的逐渐熟悉,…

作者头像 李华
网站建设 2026/5/10 20:24:12

思仪科技冲刺深交所:上半年营收10亿,应收账款账面价值9.8亿

雷递网 雷建平 12月24日中电科思仪科技股份有限公司(简称:“思仪科技”)日前递交招股书,准备在深交所创业板上市。思仪科技计划募资15亿元,其中,5.46亿元用于高端电子测量仪器生产线改造与扩产项目&#xf…

作者头像 李华
网站建设 2026/5/10 20:25:03

CubeMX中FreeRTOS配置流程通俗解释

CubeMX配置FreeRTOS实战指南:从零搭建多任务系统你是不是也经历过这样的开发困境?STM32项目越做越大,主循环里塞满了ADC采样、串口通信、LED控制和按键扫描,代码像面条一样缠在一起。稍一改动就崩,调试起来头大如斗——…

作者头像 李华
网站建设 2026/5/10 21:31:30

GPT-SoVITS在在线教育平台的语音课件自动生成实践

GPT-SoVITS在在线教育平台的语音课件自动生成实践背景与挑战:当教育遇上声音的“数字孪生” 在知识内容爆炸式增长的今天,在线教育平台正面临一个两难局面:如何既保持教学内容的专业性和亲和力,又能实现高效、规模化的内容生产&am…

作者头像 李华
网站建设 2026/5/10 21:31:38

语音克隆与品牌声音资产化:企业如何注册和管理专属语音商标

语音克隆与品牌声音资产化:企业如何注册和管理专属语音商标 在智能客服不断“拟人化”、虚拟主播频繁出圈的今天,一个品牌的“声音”正悄然成为其最直接的情感触点。当用户听到某段熟悉而亲切的播报音时,哪怕没有看到LOGO,也能立刻…

作者头像 李华
网站建设 2026/5/13 0:10:13

7、软件开发中的原型、领域语言与估算技巧

软件开发中的原型、领域语言与估算技巧 原型与便签纸 在许多行业中,原型制作是尝试特定想法的常用手段,且相较于大规模生产,其成本要低得多。以汽车制造为例,汽车制造商在设计新车时,可能会制作多个不同的原型,用于测试汽车的各个方面,如空气动力学、造型、结构特性等…

作者头像 李华