Skywork UniPic：新一代多模态模型，集图像理解、生成和编辑于一体，效率极高-平芜编程栈

概述

本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型，它将图像理解、从文本生成图像和图像编辑集成在一个架构中。

传统上，许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑，导致性能分散和推理成本增加。
UniPic 采用了 “解耦编码策略”，在一个共同的 LLM 骨干上连接了以生成为重点的屏蔽自回归（MAR）编码器和以理解为重点的 SigLIP2 编码器，从而实现了特定任务优化和相互知识转移。此外，该系统还结合了 1 亿规模的高质量数据集、带有奖励模型的数据质量管理以及从 256 像素到 1024 像素的渐进式分辨率扩展学习，从而在 RTX 4090 等常见 GPU 环境中实现高清图像生成。

评估结果表明，GenEval 0.86、DPG-Bench 85.5 和 GEdit-Bench 5.83 等模型具有很高的性能，与同等规模和尺度的现有集成模型相比具有很强的竞争力。

建议的方法

Skywork UniPic 的主要特点是采用 “解耦编码策略”，将图像理解、生成和编辑高效集成到一个模型中。

在生成任务中，使用 MAR 编码器-解码器支持高分辨率合成，同时保持像素级保真度。

另一方面，理解任务使用 SigLIP2 编码器进行语义丰富的特征提取。

两者通过独立的 MLP 投影层连接到 15 亿参数的 Qwen2.5 主干网，从而通过统一的自回归处理实现任务间的知识共享。

学习以四级课程结构进行，从 MAR 预学习、MAR-LLM 对齐、任务集成优化到利用奖励模型的 SFT。
数据质量保证使用在 GRPO 和 Skywork-EditReward 上训练的 Skywork-ImgReward（专门保证编辑准确性），以建立可用于各种编辑和生成场景的数据集，同时消除低质量样本。

实验

实验在三个领域进行：图像生成、图像编辑和图像理解。

在图像生成任务中，使用了 GenEval（建设性理解）和 DPG-Bench（长指令跟踪），UniPic 在 GenEval 中的准确率为 0.86，在 DPG-Bench 中的准确率为 85.5。
在单个对象生成、多个对象组合和位置理解方面，UniPic 的准确率尤其高。

在编辑任务方面，UniPic 在 GEdit-Bench 和 ImgEdit-Bench 分别取得了 5.83 和 3.49 的高分，在行为编辑和风格修改等特定类别中表现出了优势。
比较对象包括 OmniGen2 和 BAGEL 等集成模型，以及 ICEdit 和 Step1X-Edit 等专业编辑模型。

此外，UniPic 还能在 RTX 4090 上生成 1024 x 1024 分辨率的图像，GPU 内存不足 15 GB，这证明了它作为集成式多模态基础设施模型的实用性，在性能、效率和多功能性方面取得了良好的平衡。

EmotiVoice语音合成在图书馆自助服务系统中的便捷应用

EmotiVoice语音合成在图书馆自助服务系统中的便捷应用在一座现代化的智慧图书馆里，一位视障读者轻轻触碰自助终端屏幕，询问：“《平凡的世界》在哪里？”几秒钟后，一个温和、清晰且略带关切语气的声音响起：“…

李华

02.生成式人工智能和大型语言模型简介

生成式人工智能和大型语言模型简介生成式人工智能是一种能够生成文本、图像及其他类型内容的人工智能技术。它的神奇之处在于，它让人工智能变得更加普及，任何人只需输入一个文本提示，即用自然语言写的一句话，就可以使用它。你不需…

李华

03.探索和比较不同类型AI模型

探索和比较不同的LLM 在上一课中，我们已经了解了生成式人工智能如何改变技术格局，了解了大型语言模型（LLM）的工作原理，以及企业（例如我们的初创公司）如何将其应用于实际案例并实现增长&#xff…

李华

【保姆级教程】手把手教你开发“智慧农业”：Spring Boot + AI 病虫害识别 + 二维码溯源（从 0 到 1 全流程）

前言： 很多同学毕设想做“高大上”的项目，但苦于不会训练 AI 模型。其实，企业级开发中我们通常会调用成熟的云端 API。本文将带你使用 Spring Boot 3 Vue 3，结合百度 AI 开放平台和 Google ZXing，从零撸一个**“智…

李华

HTML插槽与Shadow DOM：Web Components基础

HTML插槽与Shadow DOM：Web Components基础引言在Web开发领域，随着项目复杂度的不断提升，代码复用与组件化开发的需求愈发迫切。Web Components作为一项原生支持的技术，为开发者提供了创建可复用、封装性强的自定义组件的能力。其…

李华

概述