原生多模态大模型的开源里程碑：商汤SenseNova U1深度体验-平芜编程栈

这里写目录标题

- 前言
- 一、它从哪里来──模型与架构背景
- 二、它的不同之处──NEO-Unify架构解析
- 三、它能做什么──两大核心能力实测
- - 3.1 连续图文创作：文字和图片的"绑死"
  - - 测试用例1：四季绘本创作
    - 测试用例2：废土风游戏角色设计
    - 测试用例3：烹饪教程全流程
    - 测试用例4：拆解建筑美学
  - 3.2 信息图的生成能力
  - - 测试用例1：信息图海报生成
    - 测试用例2：DeepSeek V4架构解读
    - 测试用例3：生活化实测
- 四、办公小浣熊「一图读懂」：从长文档到信息图，一步到位
- - - 办公小浣熊测试：咖啡的一生（科普长图）
- 五、可复现测试
- 六、真效率与场景思考
- 七、总结：原型能落地的新平台

前言

当GPT Image 2不断刷屏社交网络的时候，开源多模态领域迎来了一个强有力的回击。最近，商汤科技发布并开源的SenseNova U1原生理解生成统一模型，引起了不少讨论。我也第一时间拿到了测试资格，经过几天的深度上手体验，想从个人使用者的角度，聊聊它到底能做什么、做得怎么样。

一、它从哪里来──模型与架构背景

SenseNova U1是商汤科技"日日新"平台于2026年4月28日正式发布并全面开源的统一多模态大模型。目前已经开源了两个型号：SenseNova U1-8B-MoT和SenseNova U1-A3B-MoT，两者均可在GitHub和Hugging Face上免费获取。

二、它的不同之处──NEO-Unify架构解析

上手之前，我花了一些时间了解它的技术背景。它基于商汤今年三月自主研发的NEO-Unify架构，在单一模型架构上统一了多模态理解、推理与生成。
NEO‑unify 架构示意图：

传统多模态模型大致是这样的：一个专门看图的视觉编码器把图像翻译为"语言"，喂给大语言模型处理，再转给生成模块画图。这中间信息在不同模块之间往返，类似“多层翻译”，总会有损耗和延迟。
SenseNova U1的做法则不同——它直接去掉了视觉编码器（VE）和变分自编码器（VAE），重新构建统一的表征空间，将语言与视觉信息在同一个“逻辑空间”中直接建模。这意味着模型不需要在不同部件之间来回转换，信息传递更直接，效率更高，复杂排版和图文一致性的保持也更稳定。
其实这个差异一句话就能说清楚：传统多模态是"三个人接力"，U1是一个"全能大脑"。

三、它能做什么──两大核心能力实测

这次上限测试，我重点体验了两个公认最能体现多模态模型硬实力的功能：连续图文创作和信息图生成。

3.1 连续图文创作：文字和图片的"绑死"

平常让AI写教程或者绘本，往往是先出一段文字，再配一张图，图文内容有时对不上，人物画着画着也可能"变脸"。
SenseNova U1的连续图文创作最大的亮点，就是在一个模型内部完成文和图的连续生成，并且图文之间的逻辑是"绑死"的，推理讲到哪儿，画面就跟到哪儿。

测试用例1：四季绘本创作

Prompt参数：单一对话窗口连续输入，"创作一个图文绘本故事，主角是一只棕色的小熊，故事讲述它经历四季变化。"

环境：本地浏览器，windows+Edge浏览器
生成结果：模型输出了一段连续的图文流。

春季篇章:讲述了小熊在嫩绿的林间苏醒，对应的画面是柔和淡绿的森林背景；

夏季部分:小熊在快乐的奔跑，像是童话里的守护者

秋季红叶飘落，小熊安静地坐着，开始享受收获的喜悦

到了冬季，画面中的小熊钻进温暖的木屋里，进入了梦乡

这在以前的AI内容生成中是很难一步到位的。很多情况下需要文本模型出文案、再调用图像模型生成插图，不仅耗时，也难以保证角色形象的一致性。这种时序性的图文产出，在创意工作和教程生成上简直是"杀手锏"。因为它在设计漫画分镜、草稿蓝图、产品说明书等方面实操价值很高。

测试用例2：废土风游戏角色设计

Prompt：“设计一个废土风格的游戏角色‘机械拾荒者’，从整体视觉基调开始，逐步展示核心交互细节、装备设定和环境叙事。”

生成结果：模型先输出了角色的整体视觉概念，配以角色站立姿态的概念图；随后输出风格解说，给出装备细节图示；最后给出环境背景描述，并配图展示角色在场景中的样子。每个推辞环节都有配图佐证，整个演进的过程，能看到角色在不同画面之间的关键特征得到较好延续。

测试下来我发现，如果业务需要迭代去完成某个产品的描述性表达，比如角色原型设计、运行原理演化等，SenseNova U1的这种图文输出模式确实能减少很多拼接步骤。

测试用例3：烹饪教程全流程

一步生肉变牛排

Prompt: 生成一个"煎牛排"的图文教学，从食材准备开始，一步步展示沥干水分、调味、煎制、翻面和装盘

U1的回复是一段完整连贯的图文流：

给出盐和黑胡椒铺满肉面的特写：

关键细节：彻底去湿之后进行撒盐

然后将处理好的牛肉放入锅中煎制并翻面

最后跳出翻面时的金黄色纹理。整块肉的形态从生肉排到五分熟保持高度一致，不会画着画着变成另一块肉。

测试用例4：拆解建筑美学

哥特式大教堂手绘过程：

Prompt: 生成一份手绘哥特式大教堂建筑的逐步拆解教程，包含从基础轮廓到细节雕刻的完整步骤。

模型玩出了更高级的层次：从简练轮廓到华丽成品，每一步分别解析建筑的不同部分——扶壁的延伸、飞拱的结构交代、玫瑰窗格纹路的复现。这一方面展示了U1对复杂视觉信息的空间理解和重组能力，另一方面，多张图中核心建筑元素的高度一致贯彻性，也充分体现了信息在模型内部的有效传递和保持。
一致性为什么难：传统"缝合怪"架构靠多个模型来回调用，角色主体很容易在第三步就走样。而U1同一次调用直接出全套，原因正是在NEO-Unify架构下，图文逻辑在模型底层就已经深度对应，不需要事后费力"对齐"。

3.2 信息图的生成能力

信息图生成是多模态模型的另一项"碰硬"测试。它不只需要模型画得好看，还需要真正理解内容、理清逻辑主次、并准确渲染文字，同时处理好版式排版和信息密度——这恰恰是现有AI最容易翻车的环节。
在更具挑战性的信息图生成任务中，U1在实测中给出了一份令人相当满意的答卷。来看看实际的效果：

测试用例1：信息图海报生成

Prompt：“生成一张中文信息图海报，主题为：‘2026年世界杯：北美足球盛会’。整体风格为深蓝色科技感体育海报，搭配荧光绿、金色和白色高光。需要有足球、球场灯光、北美地图元素。需要呈现核心信息：三国联合主办、48支参赛队、16座主办城市、冠军之路。”

等待时间：约12秒
生成效果：信息图返回结果为四宫格结构海报，完整呈现了三国联合主办、48支参赛队、16座主办城市及冠军之路四个模块。文字渲染准确无乱码，深蓝色主体搭配荧光绿线条和金色奖杯元素，整体信息密度高且没有错乱拥挤，排版和配色基本符合指定要求。

官方跑分数据显示，在信息图生成基准测试中，SenseNova U1的平均得分达到了50.7，是开源模型中表现最佳的水平，与部分商业闭源模型相当，同时响应延迟约15秒，相对于同级别闭源模型速度优势较突出。

测试用例2：DeepSeek V4架构解读

关键词→架构图：

Prompt: 用一张信息图解释一下DeepSeek V4的核心创新点。

测试用例3：生活化实测

武汉三鲜豆皮制作流程:

Prompt: 生成一张"武汉三鲜豆皮"制作流程的信息图。

更让我惊喜的是生活化场景的发挥。煎豆皮表皮溅出焦香的描述、香菇笋子糯米的配料点缀——模型准确拆分出"浸泡米料→炒制馅料→摊饼包馅→翻面煎制"四个步骤，配图加文字，读完真的能对这道地道美食的制作流程一目了然。
从多个实测结果来看，U1在复杂信息图和商业数据可视化上展现了一定的的生成水准。在一些通用图像生成测试中，质量客观，同时推理延迟优势明显。
不过据最新消息，5月6日商汤科技发布了SenseNova-U1 更新版，开源了一个 8 步蒸馏 LoRA：100 NFE → 8 NFE，将 H100 推理时间从 23 秒缩短到 2 秒，效率更高！并且已支持 ComfyUI，同步提供可直接运行的 t2i、图像编辑和交错生成工作流程。大家可以体验一下：
https://github.com/OpenSenseNova/SenseNova-U1/

四、办公小浣熊「一图读懂」：从长文档到信息图，一步到位

最近还发现商汤科技官方宣布：商汤办公小浣熊已率先接入SenseNova U1模型，并上线了全新功能——「一图读懂」。这意味着，U1的多模态理解与生成能力，已经从一个需要本地部署或API调用的模型，落地到了人人可用的办公产品中。

据官方介绍，这是"业内首个能‘读懂’长文档与数据的AI信息图生成功能"。用户不再需要自己梳理逻辑、设计排版，只需上传一份几十页的市场报告、一组零散的销售数据，甚至仅仅是一个想法雏形，办公小浣熊就能自动完成“理解意图→构建逻辑→设计呈现”的全流程，一键生成专业级信息图。
这一能力，恰好与我接下来要测试的"信息图生成"任务高度契合。下面，我就从个人使用者的角度，看看U1在纯模型层面和办公小浣熊产品层面，分别能交出怎样的答卷。

我在办公小浣熊也做了测试：

Prompt：用一张信息图解释一下DeepSeek V4的核心创新点

模型生成了一张逻辑清晰的技术架构图，排列出了混合专家架构（MoE）、百万级上下文支持、Multi-Token Prediction等技术点的定位布局，版面整洁，文字没有溢出或乱码。

办公小浣熊测试：咖啡的一生（科普长图）

我输入一句话：“介绍咖啡的一生，从咖啡豆种植开始，到最终端上桌的一杯咖啡结束。”

小浣熊返回了一张纵向长图：

分为“种植→采摘→处理→烘焙→研磨→冲煮→品饮”七个阶段。
每个阶段配有简洁的文字说明和对应的插画。
整体风格统一，信息密度适中，读完确实能对咖啡全流程一目了然。

如果说直接在SenseNova Studio中测试U1，考验的是模型的"裸能力"；那么通过办公小浣熊的「一图读懂」功能，U1的能力被封装成了一个更简单易用、更落地的工具。它不再需要用户懂得如何写精准的提示词、如何规划版式，真正实现了"从长文档到信息图，一步到位"。

五、可复现测试

六、真效率与场景思考

作为一名长期接触AIGC视觉工具的使用者，测试完SenseNova U1之后，我的个人感受是：这个模型并非传统生图模型的"替代"，它更像是在多模态生成的技术路径上选择了另一种解法——不靠参数竞赛取胜，而是通过统一架构打破图像思维和语言思维的藩篱。轻量化8B参数能用出这种效果，在推理效率上确实有它独特的技术价值。
场景适配思考：一个很现实的问题是，它到底适合放在什么地方？

知识科普：公众号运营、教育从业者、科普博主，以往需要先写文案，再找设计师配图，或者自己用Canva等工具手动拼凑。现在，一句话或一篇文档，直接输出图文并茂的长图，内容一致性强，无需二次校对。
内部培训：制作流程图、操作手册、制度解读等材料，以前至少需要半天到一天。现在输入文档，小浣熊自动提炼要点、生成结构化信息图，效率提升明显。
知识库可视化辅助：用U1自动输出高密度信息图。本身文+图同出，省去了人力从文档图表再制作为PPT的阶段。
职场汇报：以前做一份数据分析报告，要先在Excel里处理数据，再用PPT画图表，来回切换多个工具。现在，在办公小浣熊里上传数据或描述需求，直接生成信息图，插入PPT即可。
可以说，从“模型开源”到"产品落地"，SenseNova U1走了一条非常务实的路——让开发者可以免费部署本地版本，让普通用户可以通过办公小浣熊零门槛体验。这种“双轨制”，可能是大模型技术普惠的最优解之一。

当然，它也有一些局限性的地方：

定制化：高级自定义版式和像素级精细控制，目前不如一些商业闭源产品那样完全自由。
中文特化：中文复杂版式的处理整体比较稳定，但在个别诗词配图风格上偶尔会出现轻微错位，还需要实测调参。
部署成本：本地C端免费开源，实测RTX 4090/5090可以流畅运行，但如果是普通办公电脑，需要通过API调用云端版本。

七、总结：原型能落地的新平台

经过几天的深度实测体验，我觉得SenseNova U1不仅是一个多模态模型的开源突破，在实际的应用场景里——像商业信息图批量化、科普内容的生产、设计依赖的参照物生成——确实有它的实际可用性。

核心优势一句话总结：统一架构打破图文割裂，单模型完成理解-推理-生成全流程，轻量化部署却能做到接近商业闭源产品的输出水准。

如果你也正在寻找能替代闭源、可本地部署的开源多模态生成模型，或者只是想尝试高密度信息图和图文并茂输出的可能性，不妨上去花几分钟跑一下它的Demo，看看能不能支持你的工作流程。
我个人很期待它未来在本地部署更便捷，甚至嵌入各种Agent框架中的可能性——毕竟，模型能力再强，最终能为开发者的实际工作流带来效率提升，才是它最大的价值所在。

参考资料学习
• GitHub开源地址：https://github.com/OpenSenseNova/SenseNova-U1
• Hugging Face地址：https://huggingface.co/collections/sensenova/sensenova-u1
• 办公小浣熊官网：https://office.xiaohuanxiong.com/home
• SenseNova-U1 更新版体验链接：：http://•https:/https://github.com/OpenSenseNova/SenseNova-U1/