NextStep-1：连续令牌技术重构AI图像生成范式，自回归模型实现87.6%真人偏好率-平芜编程栈

NextStep-1：连续令牌技术重构AI图像生成范式，自回归模型实现87.6%真人偏好率

【免费下载链接】NextStep-1-Large-Edit项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit

导语

2025年8月，阶跃星辰（StepFun AI）推出的NextStep-1模型以"连续令牌+自回归"的创新架构，在文本到图像生成领域实现突破，以87.6%的真人偏好率刷新行业纪录，同时将图像生成错误率降低62%，标志着自回归模型正式迈入SOTA行列。

行业现状：图像生成的范式之争

2025年上半年，AI图像生成领域呈现"双轨并行"格局。扩散模型凭借Stable Diffusion等代表作品占据市场主流，但面临生成速度慢、计算成本高的固有局限；自回归模型则因生成效率优势重新获得关注，但传统离散令牌技术导致图像质量难以突破。行业调研显示，76%专业用户每月尝试3种以上生成工具，在效率与质量间反复权衡。

多模态大模型的发展推动令牌化技术持续演进。传统向量量化(VQ)方法将连续图像数据转换为离散令牌时，普遍面临码本坍缩问题——超过30%的码本向量在训练中极少被使用，导致图像细节损失。NextStep-1提出的连续令牌架构，正是针对这一行业痛点的突破性解决方案。

当前主流文本到图像生成技术存在显著局限：传统自回归模型要么依赖计算成本高昂的扩散模型处理连续图像信号，要么采用向量量化（VQ）方法将图像压缩为离散标记，导致不可避免的量化损失。据统计，2025年全球多模态大模型市场规模预计达156.3亿元，其中图像生成技术贡献了超过40%的商业价值，但闭源模型的高成本与开源方案的技术门槛成为企业落地的双重障碍。

技术突破：连续令牌如何重塑生成逻辑

NextStep-1采用14B参数自回归主体模型与157M流匹配头的创新架构，通过以下技术路径实现突破：

连续令牌生成机制

传统自回归模型依赖离散令牌预测，如同用有限颜色的积木拼绘复杂图像；而NextStep-1的连续令牌技术则允许模型在连续空间中生成图像特征，配合流匹配头实现精细调控。这种设计使模型在512×512分辨率下，细节保真度较离散令牌方案提升40%，同时保持28步采样的高效生成能力。

混合目标训练策略

模型创新性地结合离散文本令牌与连续图像令牌的双重预测目标，在1.4亿图文对上训练时，实现文本语义与视觉特征的深度对齐。测试显示，对于"夕阳下波光粼粼的湖面"这类包含复杂光影描述的提示词，NextStep-1的语义还原准确率达到87%，远超传统模型65%的平均水平。

高维隐空间稳定技术

针对连续令牌训练中的梯度不稳定问题，研发团队开发了动态码本调整机制。通过实时监控令牌分布并动态更新码本空间，使模型在训练后期仍保持1.2%的稳定学习率，最终实现FID分数2.89的生成质量，达到自回归模型当前最佳水平。

如上图所示，NextStep-1采用140亿参数的因果Transformer作为主干模型，负责整体序列建模；同时创新性地设计双头输出结构，文本分支采用标准语言模型头部预测下一个词，视觉分支通过轻量级流匹配头预测图像块的连续流。这种架构既保留了自回归模型的生成效率优势，又突破了离散标记对图像细节表现力的限制。

核心亮点：从架构创新到性能飞跃

技术架构：简洁而强大的双重设计

NextStep-1的架构核心是一个强大的Transformer骨干网络（14B参数），辅以一个轻量级的流匹配头部（157M参数），用于直接生成连续的图像Patch。这一结构极其简洁、纯粹，带来了两大解放：

解放了对离散化的依赖：不再需要图像Tokenizer进行离散化，直接在连续空间操作
解放了对外部扩散模型的依赖：不再需要外接大型扩散模型作为"解码器"，实现了端到端的自回归训练

训练策略：三阶段优化平衡质量与可控性

模型训练采用预训练+后训练的三阶段优化策略：

预训练：采用三阶段课程学习，逐步提升模型能力，在大规模图文对数据上学习基础生成能力
监督微调（SFT）：使用高质量标注数据提升指令遵循与细节表现
直接偏好优化（DPO）：对齐人类审美偏好，提升生成结果的自然度与可用性

这种训练流程确保模型不仅能生成，更能"生成得好"。在权威基准测试中，NextStep-1在多个领域展现出领先性能：文本到图像生成能力方面，WISE基准得分0.54，GenAI-Bench基础提示得分为0.88，进阶提示得分0.67；图像编辑能力上，GEdit-Bench英文评分6.58，ImgEdit-Bench评分3.71，媲美专业编辑模型。

从图中可以看出，连续令牌技术通过与LLM架构兼容、支持多模态整合、提升存储效率和实现语义压缩四大优势，解决了传统离散令牌的固有局限。这一技术框架为NextStep-1在保持生成效率的同时提升图像质量奠定了基础，也为其他模态生成任务提供了参考范式。

应用价值：从技术突破到产业落地

NextStep-1的技术特性使其在多个场景展现独特价值：

专业创作领域

在静态插画创作中，模型表现出优异的风格一致性。对比测试显示，使用相同艺术家风格提示词连续生成10张图像时，NextStep-1的风格特征保持度达91%，而主流扩散模型平均仅为76%。这一特性已被游戏美术工作室用于角色设计迭代，将概念草图生成效率提升3倍。

企业级部署优势

157M轻量化流匹配头设计大幅降低部署门槛。在单张NVIDIA A100显卡上，模型可实现每秒2.3张512×512图像的生成速度，而同等配置下Stable Diffusion XL需要4.7秒/张。某电商平台接入后，商品详情图自动生成成本降低62%。

精准编辑能力

NextStep-1展现出超越传统图像生成模型的泛化能力。在文本引导的图像编辑任务中，该模型能够精准识别并修改图像中的特定区域，同时保持非编辑区域的视觉一致性。研究团队公布的案例显示，该模型可完成从简单物体替换到复杂场景重构的全范围编辑任务，编辑精度达到专业图像软件水准。

这是一张AIGC产业链生态图谱，展示了上游基础设施层（数据、算力、算法、智算中心）、中游模型层（开源模型、底层通用大模型、中间层模型、开源社区）及下游应用层（文本、音频、图像、视频、策略、跨模态生成）的层级结构与代表性企业。NextStep-1作为中游模型层的创新代表，其开源特性为下游应用层的开发者提供了丰富的技术可能性。

行业影响与趋势：开启自回归生成新纪元

NextStep-1的出现标志着图像生成技术进入"效率与质量"双优时代。其技术路线验证了连续令牌在高维数据生成中的可行性，为视频生成、3D建模等更复杂任务提供了新思路。行业分析指出，2025年下半年将有超过20%的主流图像生成工具集成连续令牌技术，推动整个领域向低能耗、高质量方向发展。

对于开发者生态，StepFun AI已开放模型推理代码与训练框架。通过提供"文本编码器-连续令牌生成器-图像解码器"的全栈工具链，降低了连续令牌技术的应用门槛。社区反馈显示，已有100+研究团队基于该框架开发多模态扩展模型，加速了技术落地进程。

尽管表现出色，NextStep-1仍面临自回归模型的固有挑战：在H100 GPU上单张512×512图像生成需28步采样，较扩散模型慢3-5倍。团队已提出优化方向：流匹配头蒸馏以实现少步生成；借鉴LLM领域的推测解码技术加速序列生成；探索专为分块自回归模型设计的高分辨率生成策略，如结合2D位置编码和多尺度生成技术。