news 2026/1/12 14:22:51

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型 DiffThinker。

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

尽管近期的「Thinking with Image」范式可以通过工具等对图像进行操作,但它们难以扩展到更复杂的长程任务,且在多轮交互中本身开销巨大。

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型DiffThinker

DiffThinker 彻底打破了「多模态输入 -> 文本输出」的传统定式,将推理过程重构为图像到图像(Image-to-Image)的生成任务。通过扩散模型(Diffusion Models),DiffThinker 能够在视觉空间中直接生成推理路径。

实验结果令人惊讶:在包含长程规划、组合优化、约束满足、空间推理等 7 项视觉中心的复杂任务中,DiffThinker 的表现显著优于包括 GPT-5 (+314.2%) 和 Gemini-3-Flash (+111.6%) 在内的顶尖闭源模型,以及经过相同数据微调的 Qwen3-VL-32B 基线 (+39.0%)。

  • 论文标题:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
  • 论文地址:https://arxiv.org/abs/2512.24165
  • 项目主页:https://diffthinker-project.github.io
  • 代码仓库:https://github.com/lcqysl/DiffThinker

1. 从「以文思考」到「以图思考」

现有的多模态大模型在处理视觉推理任务时,难以追踪视觉信息的变化。比如在空间导航任务(VSP、Maze 等)中,模型仅靠语言分析路径,但输入图像不变,路径一长就很容易「看走眼」,不知道自己已经走到了哪。又比如拼图任务,模型如果不能直接对拼图操作,很难凭空想象出答案。即便是最新的「Thinking with Image」范式,也往往依赖于多轮对话和工具调用,导致推理链路极长,难以扩展到复杂场景。

研究团队还在项目主页提供了几个小游戏,以直观理解人与 MLLM 的思维范式差异。

那么,为什么不能让模型直接「看」着问题,把答案「画」出来?

DiffThinker 提出的核心理念正是如此。研究团队认为,多模态推理不应局限于符号空间,而应回归视觉空间,利用扩散模型直接生成答案。具体来说,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 训练直接用图像生产答案。

2.DiffThinker 的四大核心特性

作为全新的生成式推理范式,DiffThinker 展现出了传统 MLLM 难以企及的四大特性:

  • 高效推理(Efficient Reasoning)相比于 MLLM 动辄生成数千个 Token 的长思维链,DiffThinker 在训练和推理效率上均表现出色,且准确率更高。

  • 可控推理(Controllable Reasoning)MLLM 的输出长度不可预测,常出现过长思维链甚至输出崩溃导致死循环。而 DiffThinker 通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,不受任务逻辑复杂度的干扰。
  • 原生并行推理(Native Parallel Reasoning)这是扩散模型独有的优势。在推理时,DiffThinker 能够在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解。这使得模型可以「边画边推理」,更直观。

  • 协同推理(Collaborative Reasoning)DiffThinker 还可以与 MLLM 合作。它生成多个候选视觉解,再由 MLLM 进行逻辑验证。实验显示,这种「DiffThinker 生成 + MLLM 验证」的组合,性能实现「1+1>2」,超越了任何单一模型。

3.实验结果:碾压级的性能

研究团队在四个领域的七大任务上进行了系统评测,包括:

  • 序列规划:VSP,VSP-Super,Maze(迷宫)
  • 组合优化:TSP(旅行商问题)
  • 约束满足:Sudoku(数独)
  • 空间配置:Jigsaw(拼图),VisPuzzle

主要结果如下:

DiffThinker 在所有任务上的平均得分高达 87.4,而 GPT-5 仅为 21.1,Gemini-3-Flash 为 41.3。同数据训练的 Qwen3-VL-32B 也只有 62.9。

4.视频生成 vs 图像生成

既然是视觉推理,用视频模型(Video Generation)会不会更好?

团队基于 Wan2.2-TI2V-5B 开发了 DiffThinker-Video 版本。结果发现,虽然视频能展示动态过程,但在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(1.1s vs 2.0s)。这表明,在当前的算力与模型架构下,「以图思考」仍是比「以视频思考」更高效的路径。

5.结语

DiffThinker 的出现,标志着生成式多模态推理(Generative Multimodal Reasoning)时代的开启。它证明了扩散模型不仅能画画,还能进行严密的逻辑推理。

对于长程、视觉中心的复杂任务,将推理过程从「文本流」转变为「视觉流」,或许正是通往下一代通用人工智能的关键一步。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/8 17:37:27

乐鑫ESP32-S3-BOX-3,面向AIoT与边缘智能的新一代开发套件

乐鑫信息科技推出的ESP32-S3-BOX-3,是一款旨在服务于人工智能物联网(AIoT)、边缘AI及工业物联网(IIoT)领域的开发套件。它基于高性能的ESP32-S3系统级芯片构建,并通过集成丰富的硬件接口与模块化配件系统&a…

作者头像 李华
网站建设 2026/1/8 17:36:53

使用M2FP开发虚拟服装定制系统

使用M2FP开发虚拟服装定制系统 🧩 M2FP 多人人体解析服务:构建虚拟试衣的视觉基石 在虚拟服装定制系统中,精准的人体结构理解是实现“所见即所得”体验的核心前提。传统图像分割技术往往局限于单人场景或粗粒度分类,难以应对真实用…

作者头像 李华
网站建设 2026/1/8 17:36:45

Thinkphp的校园招聘求职平台

目录校园招聘求职平台摘要项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理校园招聘求职平台摘要 ThinkPHP开发的校园招聘求职平台旨在为高校学生与企业搭建高效、便捷的对接桥梁。平台采用B/S架构,基于ThinkPHP框架实现快速开发与稳定…

作者头像 李华
网站建设 2026/1/8 17:35:23

中南大学让AI像苏格拉底一样思考,破解遥感图像“假推理“难题

这项由中南大学地球科学与信息物理学院邵润教授团队联合百度公司和浙江大学共同完成的研究发表于2025年11月27日的arXiv预印本平台(编号:arXiv:2511.22396v1),为解决人工智能在遥感图像理解中的"假推理"问题提出了创新性…

作者头像 李华
网站建设 2026/1/8 17:32:51

开源可部署的优势:自主可控,告别第三方API依赖

开源可部署的优势:自主可控,告别第三方API依赖 🌐 AI 智能中英翻译服务 (WebUI API) 在当前全球化背景下,高质量的中英翻译能力已成为众多开发者、内容创作者和企业出海业务的核心需求。然而,依赖第三方云服务商提供…

作者头像 李华
网站建设 2026/1/8 17:32:42

基于M2FP的智能瑜伽课程推荐系统

基于M2FP的智能瑜伽课程推荐系统 在现代健康管理与个性化健身服务中,如何精准理解用户的身体状态并提供定制化训练方案,已成为智能健身系统的核心挑战。传统推荐系统多依赖用户输入的静态信息(如年龄、体重、目标),缺乏…

作者头像 李华