📖标题:ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence
🌐来源:arXiv, 2605.26340v1
🛎️文章简介
🔸研究问题:现有自主科研智能体虽能生成高质量论文,但普遍存在引用造假、分数不可复现及方法描述与代码不符等“证据链断裂”问题,且缺乏有效的验证协议,如何解决这一可信度危机?
🔸主要贡献:论文提出证据链(CoE)可验证框架,开发原生支持证据追踪的端到端系统ScientistOne,并建立包含四项完整性检查的后验审计标准CoE Integrity Audit。
📝重点思路
🔸提出Chain-of-Evidence标准:定义科研声称必须通过记录的证据链追溯至 grounding source,涵盖引用、数值、方法和结论四类声称的证据结构要求。
🔸构建ScientistOne系统:采用三阶段架构,问题调查员基于检索文献生成 grounded 简报;发现引擎并行探索解空间;论文写作者结合声明验证器,在生成LaTeX前强制校验每个声称与实验日志、代码及参考文献的一致性。
🔸实施CoE完整性审计:设计四项统一检查指标,包括分数复现验证、规范违规检测(如利用评估器漏洞)、参考文献真实性核查以及方法描述与代码实现的对齐度判断,用于量化评估任意系统的输出可信度。
🔎分析总结
🔸基线系统普遍失效:对5个主流系统在5项任务生成的75篇论文审计显示,所有基线均存在至少一种系统性失败,幻觉引用率高达21%,分数验证通过率最低仅42%,方法-代码对齐度低至20%-80%。
🔸ScientistOne实现零幻觉:ScientistOne是唯一在所有完整性检查中表现完美的系统,实现0/337条引用幻觉,12/12分数完全复现,14/15方法代码高度对齐,且求解性能匹配或超越人类专家。
🔸可验证性提升论文质量:自动评审结果显示,ScientistOne的论文接受率达40%,显著高于基线,证明消除证据链断裂能大幅提升论文的科学严谨性和评审通过率,且该能力泛化至医疗影像等新领域。
💡个人观点
论文将“可验证性”从后验检测前置为系统设计的核心约束,通过“先证据后行文”的架构,从根本上解决了大模型在长程科研任务中的事实漂移和幻觉问题。