繁杂枯燥的资料搜集与交叉比对,向来是消耗专业人士核心精力的黑洞。
谷歌刚刚对自动化研究工具进行了全面升级,它能将公开网络信息与企业内部私密数据无缝缝合,直接生成带有原生数据可视化图表,且完全标注信息来源的专业级分析报告。
基于功能更强大的 Gemini 3.1 Pro 模型,全新推出的 Deep Research 以及 Deep Research Max 智能体,正式将单纯的文本摘要引擎,蜕变为支撑金融、生命科学和市场调研等企业级工作流的坚实底座。
差异化的双轨智能体
谷歌自去年12月通过交互 API 向开发者开放预览版以来,开发者们一直在探索自动化研究的边界。
为了精准匹配从即时用户协助到大规模离线处理的多元化需求,谷歌此次升级拆分出两条清晰的产品线。
常规版本的 Deep Research 专为速度与效率优化。它全面替代了早期的预览版,在提升输出质量的基础之上,大幅降低了响应延迟与使用成本。在需要将研究功能直接嵌入交互式用户界面的场景中,较低的延迟能带来更流畅的体验。
Deep Research Max 则是为应对极为复杂的背景调查或深度分析任务而生。
它被设计用于追求极致的全面性与最高质量的逻辑综合。该版本利用延展的测试时计算资源,对最终报告进行反复推理、搜索和打磨。在实际应用场景中,分析师团队可以在下班前通过定时任务触发它,经过一整夜的异步后台运转,第二天清晨即可收获一份详尽无遗的尽职调查报告。
下图展示了不同版本在多个基准测试中的表现对比,清晰呈现了新版本在综合网络研究、逻辑推理(人类最后的考试)以及事实检索方面的能力跃升。
融合私有数据与图表
专业人士日常依赖的数据宇宙往往充满了复杂的权限壁垒。
现在的智能体工具不再局限于公共网络,它能够同时检索网页、任意远程 MCP、用户上传的文件以及已连接的文件存储库。
通过 MCP 支持,开发者能够以安全的方式,将特定的自定义数据与专业的行业数据流对接。
工具定义不再受限,智能体从单纯的网页搜索引擎,化身为能够在新兴且封闭的专业数据仓库中自由导航的自主领航员。
为了让这项技术在容错率极低的金融和生命科学等受监管领域真正落地,研发团队正与 FactSet、S&P Global 和 PitchBook 密切合作,优化其 MCP 服务器设计。
共享客户能够将专业的金融数据源汇入研究工作流,以极快的速度在庞大的数据海洋中收集上下文,实现生产力的飞跃。
原生图表和信息图生成的引入,填补了纯文本报告的视觉空白。
智能体工具可以用 HTML 或 Nano Banana 直接在报告中生成图像,动态呈现高质量的图表,让复杂的数据集一目了然。
透明可控、严谨可信
赋予工具强大自主性的同时,保持人类对流程的掌控力同样重要。现在的研究过程变得更加透明和精细。
在执行大规模搜索前,系统支持协作式规划。用户可以预先审查、指导并微调智能体生成的初步研究计划,从而对调查范围进行颗粒度级别的控制。
工具集的扩展带来了更高的灵活性,开发者可以同时调用谷歌搜索、远程 MCP 服务器、URL 上下文提取、代码执行和文件搜索,或者完全关闭网络访问权限,让智能体仅在指定的本地安全数据中寻找答案。
输入素材突破了单一文本的限制,PDF 文档、CSV 表格、图像、音频和视频都能作为基础素材,为智能体提供定制化的研究背景。
在交互式界面中,实时流媒体功能让思维过程变得可见。用户能同步追踪智能体中间推理步骤的实时思维摘要,并接收陆续生成的文本和图像,让漫长的等待过程不再是一个未知的黑盒。
与去年底的版本相比,Deep Research Max 能够查阅数量庞大得多的信息源,并敏锐捕捉到旧版本经常遗漏的关键细微差别。
系统被重点训练去查阅立场多元的信息源,并在遇到相互冲突的证据时进行谨慎的权衡。
最终产出的报告具备极高的客观性,大量引用如美国证券交易委员会文件和开放获取的同行评审期刊等权威来源,将晦涩难懂的技术数据,转化为利益相关者可以直接用来决策的清晰格式。
下直观展示了内部专家评估中,新旧版本在综合深度、结构呈现、指令遵循以及信息溯源等维度的定性胜率对比。
开发者已经可以通过 Gemini API 的付费层级在公开预览版中体验这些工具,谷歌云的企业客户也将很快接入这项服务。
参考资料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/next-generation-gemini-deep-research/