告别“指令失灵”！港中文字节提出 DreamOmni3：用“涂鸦+图文”输入，让多模态生成编辑“听话”起来-平芜编程栈

港中文与字节联合推出的 DreamOmni3 惊艳亮相。它创新性地解锁“涂鸦 + 图文”联合输入模式，直面数据创建与框架设计难题，为多模态生成与编辑带来了全新思路，有望开启这一领域更为精彩的篇章。

在人工智能飞速发展的当下，多模态生成与编辑领域成绩斐然，统一生成与编辑模型凭借文本指令就能生成精彩内容，展现出强大性能。然而，语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板，难以满足创作者日益精细的需求。在此背景下，港中文与字节联合推出的 DreamOmni3 惊艳亮相。它创新性地解锁“涂鸦 + 图文”联合输入模式，直面数据创建与框架设计难题，为多模态生成与编辑带来了全新思路，有望开启这一领域更为精彩的篇章。

介绍

近期，统一生成与编辑模型凭借文本指令展现出卓越性能，但语言难以精准定位编辑区域与捕捉视觉细节。为此，研究提出涂鸦式编辑与生成任务，借助图形用户界面融合文本、图像与自由涂鸦，实现更灵活创作，并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成，定义多项细分任务，基于 DreamOmni2 数据集构建训练数据。框架设计上，摒弃易受多涂鸦、图像与指令影响的二元掩码，采用联合输入方案，将原始与涂鸦图像输入模型，通过颜色区分区域、统一编码定位，实现精准编辑。实验表明 DreamOmni3 表现出色，模型与代码将开源。

方法概述

DreamOmni3训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述：

论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑，使用Referseg定位编辑对象，并将相应的涂鸦粘贴到源图像和参考图像上，从而创建训练对。对于涂鸦和指令式编辑，省略参考图像。对于涂鸦式编辑，我们使用专用模型将编辑对象转换为抽象草图，并将其粘贴回源图像。对于图像融合，从参考图像中裁剪对象，并将其粘贴到源图像的相应位置，从而构建训练对。
基于涂鸦的生成训练数据创建方式与编辑类似，只是源图像被替换为空白画布。
DreamOmni3基于DreamOmni2的框架，引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案，从而确保更好的像素对齐，并与之前的图像和语言指令编辑完全兼容。

实验结果

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

Speech Seaco Paraformer ASR技术揭秘：基于FunASR的中文识别优势解析

Speech Seaco Paraformer ASR技术揭秘：基于FunASR的中文识别优势解析 1. 引言：高精度中文语音识别的需求与挑战随着人工智能在语音交互、会议记录、智能客服等场景中的广泛应用，高质量的中文语音识别（ASR）系统成为关…

李华

MATLAB实现：Laplacian Eigenmap流形学习算法详解

在高维数据中，往往隐藏着低维的流形结构。Laplacian Eigenmap（拉普拉斯特征映射，简称LE）是一种经典的非线性降维方法，它通过构建数据的局部邻接关系图（亲和矩阵W），利用图拉普拉斯矩阵的谱性质，将数据嵌入到低维空间中，同时尽可能保持原始数据的局部几何结构。今天我…

李华

IndexTTS 2.0部署经验：常见报错及解决方案汇总

IndexTTS 2.0部署经验：常见报错及解决方案汇总 1. 引言还在为找不到贴合人设的配音发愁？试试 B 站开源的 IndexTTS 2.0！这款自回归零样本语音合成模型，支持上传人物音频与文字内容，一键生成匹配声线特点的音频&…

李华

微服务架构下提示工程的多环境支持：如何在开发、测试、生产环境中管理提示？

微服务架构下提示工程的多环境支持：如何在开发、测试、生产环境中管理提示？ 一、引言：当微服务遇到提示工程，为什么需要多环境管理？ 在AI驱动的应用越来越普及的今天，提示工程（Prompt Enginee…

李华

5分钟部署Open Interpreter，用Qwen3-4B模型实现本地AI编程

5分钟部署Open Interpreter，用Qwen3-4B模型实现本地AI编程 1. 引言：为什么需要本地AI编程工具？ 随着大语言模型（LLM）在代码生成领域的广泛应用，开发者对“自然语言驱动编程”的需求日益增长。然而&#x…

李华

百度网盘直链解析工具：高效下载的终极解决方案

百度网盘直链解析工具：高效下载的终极解决方案【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘直链解析工具是一款专门针对百度网盘分享链接设计的实用工具…

李华

相关链接

介绍

方法概述

实验结果

Speech Seaco Paraformer ASR技术揭秘：基于FunASR的中文识别优势解析

MATLAB实现：Laplacian Eigenmap流形学习算法详解

IndexTTS 2.0部署经验：常见报错及解决方案汇总

微服务架构下提示工程的多环境支持：如何在开发、测试、生产环境中管理提示？

5分钟部署Open Interpreter，用Qwen3-4B模型实现本地AI编程

百度网盘直链解析工具：高效下载的终极解决方案