news 2026/5/28 8:37:45

【MLLM】GraphWalker:Deepresearch用于图像生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【MLLM】GraphWalker:Deepresearch用于图像生成

note

  • 思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。
  • 这也是一种应用型的工作,本质还是在做图片生成方向的上下文扩充,优化prompt和参考图片。

文章目录

  • note
  • 一、GraphWalker:Deepresearch用于图像生成
  • Reference

一、GraphWalker:Deepresearch用于图像生成

【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-searcher.verce,

1)实现思路:

  • 三类工具:
    • search【网络文本搜索,获取事实信息】
    • image_search【图像检索,获取视觉特征参考】
    • browse【网页精读,提取深层证据】;
  • 两阶段训练:
    • SFT监督微调【在Gen‑Searcher‑SFT‑10k训练,掌握基础工具使用】
    • AgenticRL强化学习【用GRPO优化搜索轨迹,仅用图像奖励受生成器能力与随机性影响,方差大、不稳定,仅用文本奖励忽略信息对图像生成的实际价值,所以用双奖励机制:最终奖励R=(1−α)R_image+αR_text,α=0.5。
      • 文本奖励评估信息完整性
      • 图像奖励用K‑Score加权评分(忠实度0.1+视觉正确性0.4+文本准确性0.4+美学0.1)】;

2)数据合成思路:
Agent轨迹合成【search用于从网络中检索文本信息,image_search用于通过文本查询搜索相关图像,以及browse用于阅读和分析已检索网页的详细内容。在此过程中,智能体持续分析来自环境的文本和视觉反馈,识别出有用的证据和参考图像,并据此规划下一步动作。通过这一多轮推理与搜索流程,智能体逐步从多个来源聚合信息,最终生成一个基于证据的提示以及一组适用于图像合成的相关参考图像】

->图像生成【在获得最终的有根据提示和视觉参考后,使用专有的图像生成模型NanoBananaPro合成相应的图像】;

->数据过滤【使用Seed1.8从多个角度对生成的样本进行评分,包括提示是否真正需要搜索、生成内容的正确性、与提示的一致性、视觉美感、文本渲染清晰度以及安全考虑。与基于规则的过滤相结合,例如移除token长度过长或搜索结果不一致的提示】。

Reference

[1] GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-searcher.verce,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 1:55:50

动态规划dp

动态规划核心原理:动态规划dp是一种用空间换时间、用子问题解父问题的思想。例题1:爬楼梯(一维线性DP,入门必练)题目:假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种…

作者头像 李华
网站建设 2026/5/23 1:55:49

网络安全之入侵检测系统

网络安全之入侵检测系统 一 入侵检测定义 入侵:指一系列试图破坏信息资源机密性、完整性和可用性的行为。对信息系统的非授权访问及(或)未经许可在信息系统中进行操作。入侵检测:是通过从计算机网络系统中的若干关键节点收集信息…

作者头像 李华
网站建设 2026/5/23 1:55:42

单元测试、系统测试、集成测试三者的区别

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 实际的测试工作当中,我们会从不同的角度对软件测试的活动进行分类,“单元测试,集成测试,系统测试”,是按…

作者头像 李华
网站建设 2026/5/23 1:56:05

国产操作系统也能玩转Python?银河麒麟+miniconda环境配置全攻略

国产操作系统也能玩转Python?银河麒麟miniconda环境配置全攻略 在信息技术自主可控的大背景下,国产操作系统正逐步进入开发者的视野。银河麒麟作为国产操作系统的代表之一,其稳定性和安全性已得到广泛验证。但对于习惯了Windows或macOS的开发…

作者头像 李华
网站建设 2026/5/23 1:55:50

Java开发者AI入门:在PyTorch 2.8镜像中调用深度学习模型

Java开发者AI入门:在PyTorch 2.8镜像中调用深度学习模型 1. 为什么Java开发者需要了解AI 作为一名Java开发者,你可能已经注意到AI技术正在改变软件开发的格局。从智能推荐系统到自动化测试,AI能力正在成为现代应用的标准配置。好消息是&…

作者头像 李华
网站建设 2026/5/23 1:55:46

基于增量动力分析方法(IDA)的易损性曲线Matlab求解代码源文件

基于增量动力分析方法IDA求解易损性曲线matlab代码,代码源文件 打开MATLAB顺手把咖啡杯往右挪了挪,突然想记录下最近折腾IDA分析的那段日子。易损性曲线这玩意儿看着简单,实操起来各种细节能把人逼疯。直接上干货,先说清楚咱这个…

作者头像 李华