这里写目录标题
- 前言
- 一、它从哪里来──模型与架构背景
- 二、它的不同之处──NEO-Unify架构解析
- 三、它能做什么──两大核心能力实测
- 3.1 连续图文创作:文字和图片的"绑死"
- 测试用例1:四季绘本创作
- 测试用例2:废土风游戏角色设计
- 测试用例3:烹饪教程全流程
- 测试用例4:拆解建筑美学
- 3.2 信息图的生成能力
- 测试用例1:信息图海报生成
- 测试用例2:DeepSeek V4架构解读
- 测试用例3:生活化实测
- 四、办公小浣熊「一图读懂」:从长文档到信息图,一步到位
- 办公小浣熊测试:咖啡的一生(科普长图)
- 五、可复现测试
- 六、真效率与场景思考
- 七、总结:原型能落地的新平台
前言
当GPT Image 2不断刷屏社交网络的时候,开源多模态领域迎来了一个强有力的回击。最近,商汤科技发布并开源的SenseNova U1原生理解生成统一模型,引起了不少讨论。我也第一时间拿到了测试资格,经过几天的深度上手体验,想从个人使用者的角度,聊聊它到底能做什么、做得怎么样。
一、它从哪里来──模型与架构背景
SenseNova U1是商汤科技"日日新"平台于2026年4月28日正式发布并全面开源的统一多模态大模型。目前已经开源了两个型号:SenseNova U1-8B-MoT和SenseNova U1-A3B-MoT,两者均可在GitHub和Hugging Face上免费获取。
二、它的不同之处──NEO-Unify架构解析
上手之前,我花了一些时间了解它的技术背景。它基于商汤今年三月自主研发的NEO-Unify架构,在单一模型架构上统一了多模态理解、推理与生成。
NEO‑unify 架构示意图:
传统多模态模型大致是这样的:一个专门看图的视觉编码器把图像翻译为"语言",喂给大语言模型处理,再转给生成模块画图。这中间信息在不同模块之间往返,类似“多层翻译”,总会有损耗和延迟。
SenseNova U1的做法则不同——它直接去掉了视觉编码器(VE)和变分自编码器(VAE),重新构建统一的表征空间,将语言与视觉信息在同一个“逻辑空间”中直接建模。这意味着模型不需要在不同部件之间来回转换,信息传递更直接,效率更高,复杂排版和图文一致性的保持也更稳定。
其实这个差异一句话就能说清楚:传统多模态是"三个人接力",U1是一个"全能大脑"。
三、它能做什么──两大核心能力实测
这次上限测试,我重点体验了两个公认最能体现多模态模型硬实力的功能:连续图文创作和信息图生成。
3.1 连续图文创作:文字和图片的"绑死"
平常让AI写教程或者绘本,往往是先出一段文字,再配一张图,图文内容有时对不上,人物画着画着也可能"变脸"。
SenseNova U1的连续图文创作最大的亮点,就是在一个模型内部完成文和图的连续生成,并且图文之间的逻辑是"绑死"的,推理讲到哪儿,画面就跟到哪儿。
测试用例1:四季绘本创作
Prompt参数:单一对话窗口连续输入,"创作一个图文绘本故事,主角是一只棕色的小熊,故事讲述它经历四季变化。"- 环境:本地浏览器,windows+Edge浏览器
- 生成结果:模型输出了一段连续的图文流。
春季篇章:讲述了小熊在嫩绿的林间苏醒,对应的画面是柔和淡绿的森林背景;
夏季部分:小熊在快乐的奔跑,像是童话里的守护者
秋季红叶飘落,小熊安静地坐着,开始享受收获的喜悦
到了冬季,画面中的小熊钻进温暖的木屋里,进入了梦乡
这在以前的AI内容生成中是很难一步到位的。很多情况下需要文本模型出文案、再调用图像模型生成插图,不仅耗时,也难以保证角色形象的一致性。这种时序性的图文产出,在创意工作和教程生成上简直是"杀手锏"。因为它在设计漫画分镜、草稿蓝图、产品说明书等方面实操价值很高。
测试用例2:废土风游戏角色设计
Prompt:“设计一个废土风格的游戏角色‘机械拾荒者’,从整体视觉基调开始,逐步展示核心交互细节、装备设定和环境叙事。”
生成结果:模型先输出了角色的整体视觉概念,配以角色站立姿态的概念图;随后输出风格解说,给出装备细节图示;最后给出环境背景描述,并配图展示角色在场景中的样子。每个推辞环节都有配图佐证,整个演进的过程,能看到角色在不同画面之间的关键特征得到较好延续。
测试下来我发现,如果业务需要迭代去完成某个产品的描述性表达,比如角色原型设计、运行原理演化等,SenseNova U1的这种图文输出模式确实能减少很多拼接步骤。
测试用例3:烹饪教程全流程
一步生肉变牛排
Prompt: 生成一个"煎牛排"的图文教学,从食材准备开始,一步步展示沥干水分、调味、煎制、翻面和装盘
U1的回复是一段完整连贯的图文流:
给出盐和黑胡椒铺满肉面的特写:
关键细节:彻底去湿之后进行撒盐
然后将处理好的牛肉放入锅中煎制并翻面
最后跳出翻面时的金黄色纹理。整块肉的形态从生肉排到五分熟保持高度一致,不会画着画着变成另一块肉。
测试用例4:拆解建筑美学
哥特式大教堂手绘过程:
Prompt: 生成一份手绘哥特式大教堂建筑的逐步拆解教程,包含从基础轮廓到细节雕刻的完整步骤。
模型玩出了更高级的层次:从简练轮廓到华丽成品,每一步分别解析建筑的不同部分——扶壁的延伸、飞拱的结构交代、玫瑰窗格纹路的复现。这一方面展示了U1对复杂视觉信息的空间理解和重组能力,另一方面,多张图中核心建筑元素的高度一致贯彻性,也充分体现了信息在模型内部的有效传递和保持。
一致性为什么难:传统"缝合怪"架构靠多个模型来回调用,角色主体很容易在第三步就走样。而U1同一次调用直接出全套,原因正是在NEO-Unify架构下,图文逻辑在模型底层就已经深度对应,不需要事后费力"对齐"。
3.2 信息图的生成能力
信息图生成是多模态模型的另一项"碰硬"测试。它不只需要模型画得好看,还需要真正理解内容、理清逻辑主次、并准确渲染文字,同时处理好版式排版和信息密度——这恰恰是现有AI最容易翻车的环节。
在更具挑战性的信息图生成任务中,U1在实测中给出了一份令人相当满意的答卷。来看看实际的效果:
测试用例1:信息图海报生成
Prompt:“生成一张中文信息图海报,主题为:‘2026年世界杯:北美足球盛会’。整体风格为深蓝色科技感体育海报,搭配荧光绿、金色和白色高光。需要有足球、球场灯光、北美地图元素。需要呈现核心信息:三国联合主办、48支参赛队、16座主办城市、冠军之路。”
- 等待时间:约12秒
- 生成效果:信息图返回结果为四宫格结构海报,完整呈现了三国联合主办、48支参赛队、16座主办城市及冠军之路四个模块。文字渲染准确无乱码,深蓝色主体搭配荧光绿线条和金色奖杯元素,整体信息密度高且没有错乱拥挤,排版和配色基本符合指定要求。
官方跑分数据显示,在信息图生成基准测试中,SenseNova U1的平均得分达到了50.7,是开源模型中表现最佳的水平,与部分商业闭源模型相当,同时响应延迟约15秒,相对于同级别闭源模型速度优势较突出。
测试用例2:DeepSeek V4架构解读
关键词→架构图:
Prompt: 用一张信息图解释一下DeepSeek V4的核心创新点。
测试用例3:生活化实测
武汉三鲜豆皮制作流程:
Prompt: 生成一张"武汉三鲜豆皮"制作流程的信息图。
更让我惊喜的是生活化场景的发挥。煎豆皮表皮溅出焦香的描述、香菇笋子糯米的配料点缀——模型准确拆分出"浸泡米料→炒制馅料→摊饼包馅→翻面煎制"四个步骤,配图加文字,读完真的能对这道地道美食的制作流程一目了然。
从多个实测结果来看,U1在复杂信息图和商业数据可视化上展现了一定的的生成水准。在一些通用图像生成测试中,质量客观,同时推理延迟优势明显。
不过据最新消息,5月6日 商汤科技发布了SenseNova-U1 更新版,开源了一个 8 步蒸馏 LoRA:100 NFE → 8 NFE,将 H100 推理时间从 23 秒缩短到 2 秒,效率更高!并且已支持 ComfyUI,同步提供可直接运行的 t2i、图像编辑和交错生成工作流程。大家可以体验一下:
https://github.com/OpenSenseNova/SenseNova-U1/
四、办公小浣熊「一图读懂」:从长文档到信息图,一步到位
最近还发现商汤科技官方宣布:商汤办公小浣熊已率先接入SenseNova U1模型,并上线了全新功能——「一图读懂」。这意味着,U1的多模态理解与生成能力,已经从一个需要本地部署或API调用的模型,落地到了人人可用的办公产品中。
- 据官方介绍,这是"业内首个能‘读懂’长文档与数据的AI信息图生成功能"。用户不再需要自己梳理逻辑、设计排版,只需上传一份几十页的市场报告、一组零散的销售数据,甚至仅仅是一个想法雏形,办公小浣熊就能自动完成“理解意图→构建逻辑→设计呈现”的全流程,一键生成专业级信息图。
这一能力,恰好与我接下来要测试的"信息图生成"任务高度契合。下面,我就从个人使用者的角度,看看U1在纯模型层面和办公小浣熊产品层面,分别能交出怎样的答卷。
我在办公小浣熊也做了测试:
Prompt:用一张信息图解释一下DeepSeek V4的核心创新点
模型生成了一张逻辑清晰的技术架构图,排列出了混合专家架构(MoE)、百万级上下文支持、Multi-Token Prediction等技术点的定位布局,版面整洁,文字没有溢出或乱码。
办公小浣熊测试:咖啡的一生(科普长图)
我输入一句话:“介绍咖啡的一生,从咖啡豆种植开始,到最终端上桌的一杯咖啡结束。”
小浣熊返回了一张纵向长图:
- 分为“种植→采摘→处理→烘焙→研磨→冲煮→品饮”七个阶段。
- 每个阶段配有简洁的文字说明和对应的插画。
- 整体风格统一,信息密度适中,读完确实能对咖啡全流程一目了然。
如果说直接在SenseNova Studio中测试U1,考验的是模型的"裸能力";那么通过办公小浣熊的「一图读懂」功能,U1的能力被封装成了一个更简单易用、更落地的工具。它不再需要用户懂得如何写精准的提示词、如何规划版式,真正实现了"从长文档到信息图,一步到位"。
五、可复现测试
六、真效率与场景思考
作为一名长期接触AIGC视觉工具的使用者,测试完SenseNova U1之后,我的个人感受是:这个模型并非传统生图模型的"替代",它更像是在多模态生成的技术路径上选择了另一种解法——不靠参数竞赛取胜,而是通过统一架构打破图像思维和语言思维的藩篱。轻量化8B参数能用出这种效果,在推理效率上确实有它独特的技术价值。
场景适配思考:一个很现实的问题是,它到底适合放在什么地方?
- 知识科普:公众号运营、教育从业者、科普博主,以往需要先写文案,再找设计师配图,或者自己用Canva等工具手动拼凑。现在,一句话或一篇文档,直接输出图文并茂的长图,内容一致性强,无需二次校对。
- 内部培训:制作流程图、操作手册、制度解读等材料,以前至少需要半天到一天。现在输入文档,小浣熊自动提炼要点、生成结构化信息图,效率提升明显。
- 知识库可视化辅助:用U1自动输出高密度信息图。本身文+图同出,省去了人力从文档图表再制作为PPT的阶段。
- 职场汇报:以前做一份数据分析报告,要先在Excel里处理数据,再用PPT画图表,来回切换多个工具。现在,在办公小浣熊里上传数据或描述需求,直接生成信息图,插入PPT即可。
可以说,从“模型开源”到"产品落地",SenseNova U1走了一条非常务实的路——让开发者可以免费部署本地版本,让普通用户可以通过办公小浣熊零门槛体验。这种“双轨制”,可能是大模型技术普惠的最优解之一。
当然,它也有一些局限性的地方:
- 定制化:高级自定义版式和像素级精细控制,目前不如一些商业闭源产品那样完全自由。
- 中文特化:中文复杂版式的处理整体比较稳定,但在个别诗词配图风格上偶尔会出现轻微错位,还需要实测调参。
- 部署成本:本地C端免费开源,实测RTX 4090/5090可以流畅运行,但如果是普通办公电脑,需要通过API调用云端版本。
七、总结:原型能落地的新平台
经过几天的深度实测体验,我觉得SenseNova U1不仅是一个多模态模型的开源突破,在实际的应用场景里——像商业信息图批量化、科普内容的生产、设计依赖的参照物生成——确实有它的实际可用性。
核心优势一句话总结:统一架构打破图文割裂,单模型完成理解-推理-生成全流程,轻量化部署却能做到接近商业闭源产品的输出水准。
如果你也正在寻找能替代闭源、可本地部署的开源多模态生成模型,或者只是想尝试高密度信息图和图文并茂输出的可能性,不妨上去花几分钟跑一下它的Demo,看看能不能支持你的工作流程。
我个人很期待它未来在本地部署更便捷,甚至嵌入各种Agent框架中的可能性——毕竟,模型能力再强,最终能为开发者的实际工作流带来效率提升,才是它最大的价值所在。
参考资料学习
• GitHub开源地址:https://github.com/OpenSenseNova/SenseNova-U1
• Hugging Face地址:https://huggingface.co/collections/sensenova/sensenova-u1
• 办公小浣熊官网:https://office.xiaohuanxiong.com/home
• SenseNova-U1 更新版体验链接::http://•https:/https://github.com/OpenSenseNova/SenseNova-U1/