6B 小模型也能挑战 SOTA?
文生图赛道又卷起来了。
美团 LongCat 团队刚刚发布并开源了LongCat-Image图像生成模型。
长期以来,中文生成和精准编辑一直是开源模型的隐痛。现有方案往往难以在轻量化与高性能之间找到平衡点。
LongCat-Image 的发布,正是试图在6B这个易于部署的参数规模下,解决这两个核心痛点。
官方对它的定位很高。号称在文生图上做到了“快、真、准”,不仅中文渲染精准,还能实现摄影棚级的质感。更关键的是,在编辑任务上无需复杂指令,甚至能听懂“把人变成熊”这种大幅度的修改。
但 6B 的参数量,确实容易让人存疑。
在当前大模型动辄百亿参数的竞赛中,一个小模型宣称在核心能力上挑战行业 SOTA,这在技术实现上并不容易。
实际表现究竟如何?我们直接实测验证。
一手实测:6B 参数表现如何?
为了验证它的极限,我们没有使用官方 demo,而是设计了 5 个贴合真实业务场景的 case,重点测试其中文渲染和多模态编辑能力。
Round 1:复杂中文招牌生成
让 AI 写汉字一直是业界的难点。LongCat 既然宣称覆盖了8105 个通用规范汉字,我们直接测试它的极限。
要求它生成一张“簋街火凤凰”的餐饮招牌,这几个字笔画极多,非常考验模型的字符渲染能力。
“簋”和“凰”这种复杂汉字,笔画结构准确无误。
不仅如此,字体的立体浮雕质感和金属包边都渲染得比较清晰,画面中的红灯笼反光与招牌材质完美融合,没有出现常见的字形崩坏。
Round 2:高质感商业海报
光会写大字不行,复杂的商业排版能搞定吗?
我们试了一组高难度的茶咖海报。难点在于既要处理液体飞溅的物理质感,又要处理“大字+小字列表”的复杂混排。
出图效果已经具备了直接商用的潜力。左下角的蓝色大号数字“0”配合汉字“添加”,这种设计排版,模型还原得比较到位。
此外,上方的乌龙茶汤飞溅通透感较好,液体与光影的交互自然,没有明显的塑料感。
Round 3:手绘风科普卡片
除了写实风格,我们还想测试它对多种字体混排和逻辑图表的掌控力。
输入提示词,要求它生成一张绿豆薏米茶的食谱插画。难点在于不仅要模拟水彩在宣纸上的晕染质感,还要同时搞定标题的“毛笔书法体”和步骤说明的“手写硬笔体”。
这张图的完成度非常高。注意看背景的纸张纹理和水彩笔触,非常有韵味。
更难得的是,模型精准区分了字体风格:标题“绿豆薏米茶”是苍劲的毛笔字,而左侧的“绿豆30g、薏米30g”等食材清单则是清晰的手写小字,且画面中的绿豆、薏米插画与文字一一对应,逻辑清晰。
Round 4:IP 形象实体化
这个 case 我们请出了最近风靡学术圈的“高雅人士”。
我们上传了一张表情包原图,要求模型把它变成 PVC 材质的实体手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 blender 建模过程。
材质转化效果明显。企鹅手里的报纸被处理成了半透明的磨砂塑料质感,底座呈现出高透亚克力效果。
背景屏幕上显示着建模界面,构建出了合理的景深关系,完全是最佳科(mō)研(yú)伴侣。
Round 5:精准局部编辑
最后一个 case,我们来测测它的指令跟随能力。
很多模型改图容易重画,而 LongCat 主打的是精准编辑。
我们上传一只金毛的照片,只输入一句指令:给狗戴上一副红色的墨镜。
模型准确识别了编辑区域,加上了墨镜,并生成了合理的反光细节。
最关键的是,它没有破坏原图的草地和光影,保持了极好的视觉一致性,做到了“指哪改哪”。
技术解读:6B 参数如何实现高性能?
实测下来,LongCat-Image 的表现确实超出了我们对 6B 参数模型的预期。结合官方技术解读来看,其核心突破主要体现在架构和训练策略上。
1. 文生图与编辑“同源架构”
不同于市面上将文生图和修图割裂的方案,LongCat-Image 采用了文生图与图像编辑同源的架构设计(MM-DiT + Single-DiT 混合主干)。
〓 模型架构
这种设计让编辑任务能直接复用文生图阶段学到的构图和光影知识。配合Mid-training 初始化和多任务联合学习机制,模型在进行“企鹅变手办”或“给狗戴墨镜”这种操作时,能极好地保持原图的特征一致性。
从官方公布的编辑能力横向对比中可以看到,在同样的指令下,LongCat 在保留原图结构和风格迁移的自然度上,表现优于 FLUX 和 Qwen,甚至逼近闭源的 Nano Banana。
〓 风格迁移与属性编辑能力对比
2. “课程学习”解决中文难题
针对中文生成的痛点,LongCat 并没有死记硬背,而是采用了一种课程学习策略:
预训练阶段:学习千万量级的合成数据,覆盖 8105 个通用规范汉字的字形;
SFT 阶段:引入真实世界的招牌、海报数据,提升排版能力;
RL 阶段:引入OCR 奖励模型,通过强化学习进一步提升字符渲染的准确率。
这一策略直接印证了我们在实测中的体验:这也是为什么在 Round 1 和 Round 3 中,无论是生僻字招牌还是手写食谱,它都能写得对、排得好。
而在下方的文字生成对比中,优势则更加直观:我们可以清晰地看到,在处理古诗词、菜单等各种复杂文字场景时,LongCat 是极少数能做到字形准确且排版审美在线的模型。
〓 文字生成能力对比
3. 告别“塑料感”的对抗训练
为了解决 AI 绘图常见的塑料感问题,LongCat 在 RL 阶段创新性地引入了AIGC 内容检测器作为奖励模型。
这是一种巧妙的对抗训练思路:利用检测器的信号,逆向逼迫模型去学习真实世界的物理纹理、光影和质感,从而在 Round 2 的商业海报实测中呈现出摄影级的通透感。
4. 客观数据验证
在客观评测基准上,LongCat-Image 的数据表现如下:
图像编辑:在 GEdit-Bench 和 ImgEdit-Bench 等榜单上,LongCat 得分达到开源 SOTA 水平,部分指标逼近闭源商业模型。
中文能力:在 ChineseWord 评测中以90.7的高分领先,实现了对常用字和生僻字的覆盖。
〓 客观基准测试性能对比
全量开源
美团此次采取了全流程开源策略。
LongCat 团队不仅开源了最终模型,还开源了从Mid-training到Post-training的多阶段模型。这意味着开发者可以直接基于这些 Checkpoint 进行二次开发,无需从零开始训练。
目前,LongCat-Image 已在 Hugging Face 和 GitHub 上线:
HuggingFace:
https://huggingface.co/meituan-longcat/LongCat-Image
GitHub:
https://github.com/meituan-longcat/LongCat-Image
当然,如果你不想自己配环境,直接去LongCat APP或网页端(longcat.ai)也能玩。
目前官方已上线了图生图功能和 24 个零门槛玩法模板,小白也能轻松上手。
在开源模型竞争日益激烈的今天,LongCat-Image 针对中文渲染和精准编辑这两个痛点提出的解决方案,确实为开发者提供了新的选择。
感兴趣的朋友,可以去试一试。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·