论文:ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
arXiv:2605.03042(2026.5.4 上海交大)
适合人群:独立开发者 / Solopreneur / 想搭"睡眠工作流"的人
一、先讲一个我自己的故事
我做独立开发者两年多,最焦虑的一件事不是没活干,是有活干但做不完。
一个人 + 一台电脑 + 24 小时——这个组合的天花板,我以为已经被我撞死了。
直到 5 月 4 号上海交大放出 ARIS 这篇论文,我才意识到一件事:天花板不在我身上,在我没有学会让 AI 在我睡觉时帮我干活。
不是"自动化",不是"workflow",不是"AI 助手"——是有审查机制的、能自我修正的、能持续累积经验的 7×24 工作流。
这篇文章不讲 ARIS 是什么(那是另一篇技术拆解的事)。这篇只讲一件事——
作为一个独立开发者,怎么把 ARIS 论文里的方法搬到自己的工作流里,让 AI 在你睡觉时真的把活干完。
二、为什么之前你的"AI 工作流"都失败了
先复盘一个真相。
很多人在 2024-2025 年都尝试过搭"AI 工作流"。AutoGPT、BabyAGI、AutoGen——名字一茬接一茬。但 90% 的人最后都放弃了,回到"我盯着 Cursor 自己写代码"的状态。
为什么?
我做了 6 次失败实验后,总结出 3 个根因——
根因 1:跑着跑着就开始"编"
让 AI 跑长任务(>1 小时),中间没有人盯着,它会写一些看起来对、但实际编造的东西。最常见的:
- 引用一篇不存在的论文
- 计算一个数据时用了错的公式但结论看起来合理
- 写一段代码"看起来能跑",实际 import 的库根本没装
ARIS 论文里给这件事起了一个名字:「看似合理但缺乏支撑的成功」(plausible but unsupported success)。这是长 Agent 的头号杀手。
根因 2:每次都从零开始
跑了 100 次 AI 工作流,每一次都是白纸一张。同一个错误被犯 100 次。同一个想法被尝试 100 次。
没有经验沉淀的工作流,是永远不会变好的工作流。
根因 3:没有"裁判"
让一个 LLM 自己生成自己审查,等于让运动员自己当裁判——永远过关。
但很多人不知道这件事的关键不是"找个裁判",而是"找不同家族的裁判"。同一个模型的盲区是一致的,互相审查就是互相放水。
三、ARIS 论文给我的核心启发:从「Executor First」到「Reviewer First」
ARIS 这篇论文的核心机制简单到一句话能说清:
让 Claude 写、让 GPT 审、互相挑刺、直到达标。
但魔鬼在细节里。
论文实测的隔夜数据:
- 总耗时:8 小时
- 审查-修改循环:4 轮
- 评分从 5.0/10 → 7.5/10
- 触发 20+ 次 GPU 实验
- AI 主动删除了证据不足的结论
最后一条最让我震撼——AI 主动删除自己写过的话。这是过去所有 AI 工作流都不会发生的事。它不再是"硬塞内容"的生成器,而是"对自己负责"的工作伙伴。
这件事改变了我对 AI 工作流的认知:
| 之前的认知 | 现在的认知 |
|---|---|
| AI 工作流 = 让 AI 自己干 | AI 工作流 = 让 AI 跟 AI 互相约束 |
| 重点是 Executor 多强 | 重点是 Reviewer 多严 |
| Reviewer 是个评分插件 | Reviewer 是个独立干活的 Senior |
| 一个模型就够了 | 必须跨家族(Claude × GPT / DeepSeek 等) |
| 工作流靠 prompt 工程 | 工作流靠 Markdown 技能库 |
如果你只能从这篇文章里带走一句话——长周期 Agent 的瓶颈不是生成能力,是审查机制。
四、Solopreneur 该怎么搭一套 ARIS 风格的工作流:5 个落地步骤
下面 5 步是我从 ARIS 论文+开源代码(9.9k Stars)里抠出来的可落地操作。每一步都给到具体可执行的命令和工具。
步骤 1:确定你的"睡眠任务"是什么
ARIS 是为科研设计的,但它的方法论适用于任何长周期 + 需要可信输出 + 重复发生的任务。
作为 Solopreneur,能跑"睡眠工作流"的典型任务:
| 任务类型 | 之前你怎么干 | 改成睡眠工作流后 |
|---|---|---|
| 行业研究报告 | 自己搜资料、整理、写 3 天 | 睡前下命令,早上拿成稿审 |
| 竞品分析 | 一家一家手抠数据 | 多个 Agent 并行抓 + 交叉验证 |
| 代码重构 | 全部自己做 | Executor 改 Reviewer 审,自动跑测试 |
| 周报/月报 | 复盘+写作 1 小时 | 数据汇总 + 草稿生成 + 自审 |
| 内容创作(公众号/CSDN) | 全程手写 | 大纲生成 → 草稿 → 自审 → 你最后润色 |
| 数据分析 | 手写 SQL + 跑 Notebook | 计划生成 → 执行 → 结论审计 |
但有一个反向清单——下面这些任务不适合睡眠工作流:
- 需要实时反馈的(聊天客服、临场决策)
- 涉及不可逆操作的(生产环境部署、资金交易)
- 需要法律或医疗专业判断的
- 跟人有强情感连接的(私人沟通)
判断标准:如果做错了能容忍代价 + 任务足够长 + 重复发生,就适合上睡眠工作流。
步骤 2:搭一个"跨家族对抗"的最小配置
ARIS 论文的核心是跨模型审查。但作为独立开发者,你不需要直接装 ARIS-Code CLI。你可以用最简单的方法:
最小配置(零成本起步):
执行者(Executor):Claude Code(或 Cursor 接 Claude) 审查者(Reviewer):用 ModelScope 免费层接 DeepSeek 或 Qwen为什么是这个组合?
- Claude 在长文生成、代码、推理上稳
- DeepSeek 在审查、找逻辑漏洞上特别敏锐
- 两家训练数据和对齐方法完全不同——盲区不重叠
- ModelScope 免费层基本能覆盖个人开发者的用量
配置过程(10 分钟搞定):
- 装 ARIS(项目本地符号链接安装):
gitclone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.gitcdAuto-claude-code-research-in-sleepbashtools/install_aris.sh- 配置 Codex MCP 作为 Reviewer:
npminstall-g@openai/codex codex setup# 提示时选 gpt-5.5claude mcpaddcodex-suser -- codex mcp-server- 不想用 GPT?换成国产模型:
# 通过 mcp-servers/llm-chat 桥接,支持:# DeepSeek V4 Pro / GLM-5 / Kimi K2.5 / Qwen 3.6 / MiniMax M2.7进阶配置(已经赚钱了再升):
Executor:Claude Opus 4.7(用 Pro 订阅) Reviewer:GPT-5.4 Pro(通过 oracle-pro 路由) 后端模型:MiniMax M2.7(备份)ARIS 论文里说默认双模型最优——不是 3 个、4 个,就是 2 个。多了反而陷入"扯皮"。
步骤 3:把你的工作流写成 Markdown Skill
这是 ARIS 最颠覆我的设计——所有技能都用 Markdown 写,不是 Python 不是 YAML。
为什么?因为 Markdown 是所有 LLM 的母语。你写一个 Skill,今天用 Claude,明天换 DeepSeek,后天上 Qwen——一个字都不用改。
举个例子,我自己写过一个《写公众号文章》的 Skill:
--- name: wechat-article-writer description: 写一篇课堂型公众号文章 inputs: [topic, target_audience, key_points] outputs: [DRAFT.md, COVER_PROMPT.md] --- ## 步骤 1:审题 - 这个话题的"之前 vs 之后"是什么? - 目标读者最痛的痛点是什么? ## 步骤 2:搭骨架 - 痛点 → 框架 → 实操 → 反思 4 段式 - 每段必须有具体数据或案例 ## 步骤 3:写草稿 - 标题 35-40 字,包含一个反直觉点 - 开头 300 字必须给读者一个"我必须读下去"的钩子 - 每个章节配一个"effects 图"或代码块 ## 步骤 4:自审 - 有没有 AI 腔?("首先""其次""综上所述"= 红灯) - 有没有具体数据?(占比 / 数字 / 案例) - 有没有反直觉点? ## 步骤 5:产出 - DRAFT.md - COVER_PROMPT.md(给 Nano Banana / Kolors 用)写完之后,扔到~/.claude/skills/下,任何时候喊:
/wechat-article-writer"ARIS 论文解读"— target_audience: 独立开发者它就开始按这个流程走。
核心原则:把所有重复发生的工作,都写成 Markdown Skill。
步骤 4:配置三道"反幻觉"保障
这是 ARIS 论文里最值得抄作业的部分——Assurance Layer。
作为独立开发者,你不需要 ARIS 那么复杂的 5 层审查。但有 3 道保障是必须配的:
保障 1:跨模型评分
每次 Executor 出稿后,让 Reviewer 用结构化评分卡打分:
评分维度(各 0-10): - 事实准确性 - 数据有引用 - 逻辑连贯 - 没有AI腔 - 没有空话套话 - 有具体案例 总分 < 7.5:返回行动项重写 总分 >= 7.5:通过保障 2:引用核验
凡是 AI 引用的论文、数据、名人原话,必须能核验。最简单的方式:
# 在 Skill 里加这一段:对每条引用,验证三件事:1. 这个来源真的存在吗?(给 URL 让你验证)2. 这个来源真的说过这话吗?(给原文片段)3. 引用语境跟原文一致吗?(不能曲解)ARIS 把这件事叫做citation-audit。AI 幻觉里最危险的就是"引用了真实存在但说法被篡改的内容"。
保障 3:用一个"无上下文审查者"做最终验证
这是 ARIS 最巧妙的设计——最后一道审查,用一个完全没看过前面对话的新模型来做。
为什么?因为前面的 Reviewer 跟 Executor 来来回回讨论了几轮后,可能已经被"污染"——默认接受了某些主张。
新审查者相当于重置记忆,逼自己从原始数据重新验证一遍论文里的每一条数字。
具体怎么做?在你的工作流最后一步:
# 开一个全新会话(不带历史)# 把最终产出和原始数据一起给它# 让它逐条核验定量主张步骤 5:搭一个 Research Wiki,让经验累积
这是我自己上 ARIS 后变化最大的一件事——强制让 AI 写日志、强制让 AI 读日志。
ARIS 论文里说:
失败 → 进"禁试清单";成功 → 成为下一轮起点
具体在自己的工作流里怎么落地?
最简单的实现:一个 Markdown 文件
~/.solopreneur-wiki/ ├── failed-attempts.md # 失败的尝试 + 失败原因 ├── successful-patterns.md # 成功的模式 + 适用条件 ├── prompts-library.md # 验证过有效的 prompt └── client-context.md # 客户/项目长期上下文每次 AI 跑完任务,强制让它写两件事:
- 这次成功在哪?失败在哪?
- 下一次跑类似任务,应该跳过什么、复用什么?
然后下次跑任务前,强制让它先读 Wiki。
ARIS 把这个流程自动化了:
/research-wiki init# 初始化/meta-optimize# 让系统读日志、提改进建议如果你不用 ARIS,自己手动维护也可以——关键不是工具,是这个习惯。
五、一个真实的对照:用了 ARIS 思路后我的工作日
我把"7×24 工作流"上线后,我自己的工作日变了:
之前的工作日(10 小时全自己干)
08:00 起床喝咖啡 09:00 看竞品资讯 1 小时 10:00 写文章 / 写代码 3 小时 13:00 午饭 + 短暂休息 14:00 客户对接 2 小时 16:00 数据分析 + 写报告 3 小时 19:00 收工,但任务永远做不完产出:1 篇文章 + 半个项目模块
之后的工作日(4 小时人 + 8 小时 Agent)
睡前 23:00: 下指令给 Agent: - 抓取行业 10 个最新动态 + 整理 - 起草明天的文章 v1 - 跑一个数据分析任务 - Reviewer 自审 + Wiki 更新 早上 08:00: 起床看 Agent 的产出 - 行业整理已就绪(10 分钟看完) - 文章草稿已写好(15 分钟我手动改) - 数据分析已跑完(5 分钟看结论) - 失败的尝试已记录到 Wiki 09:00 - 13:00: 人工干预 4 小时——做 Agent 做不了的事 - 客户对接(情感+判断) - 战略思考(长期规划) - 创意构思(最难的部分) 13:00 - 18:00: 自由时间——休息 / 学习 / 见人 晚上 22:00: 10 分钟下发明天睡眠任务 睡觉产出:2 篇文章 + 1 个项目模块 + 1 个数据分析报告
差异:产出翻倍 + 工作时间减半。
但更重要的是——焦虑感几乎消失了。因为我知道睡觉的时候有"另一个我"在干活。
六、给独立开发者的 5 条心法
最后,超出 ARIS 论文之外,我自己实践半年总结的几条心法:
心法 1:永远先搭 Reviewer,再搭 Executor
90% 的人搭 AI 工作流时,第一步是想"让 AI 怎么做"。
错。第一步应该是"让 AI 怎么不做错"。
Reviewer 比 Executor 重要 10 倍。先把审查机制搭对,再考虑生成质量。
心法 2:Markdown 是 Skill 的最佳载体
不要用 Python 包装。不要用 YAML 描述。不要用 JSON 配置。
用 Markdown 写 Skill——人类能读、LLM 能懂、跨模型通用、热替换、可版本管理。
ARIS 9.9k Stars 不是白来的,这是社区用脚投出来的票。
心法 3:每次 Agent 运行都必须留下"日志学习"
跑 10 次 Agent 没记录,等于跑 1 次。
跑 1 次 Agent 留下结构化日志(成功/失败/根因/改进点),等于跑了 10 次的复利。
强制每一次 Agent 运行结束都写 Wiki——这是非线性提升的唯一来源。
心法 4:人保留在"创意 + 情感 + 不可逆"的环节
Agent 能做的:写、改、查、跑、整理、汇总。
Agent 做不了的:原创判断、情感连接、不可逆决策。
把你自己的精力100% 投资到 Agent 做不了的地方。其他全部 offload。
心法 5:Solopreneur 的真正护城河不是技能,是杠杆
之前一个人能做 1 倍的事。
现在一个人 + 1 个 Agent 工作流能做 3-5 倍的事。
明年一个人 + 5 个工作流 + 3 个跨模型审查机制能做 10-20 倍的事。
护城河不是你会什么,是你能调动多少倍的"复制版自己"。
ARIS 这篇论文,本质上是给所有 Solopreneur 上了第一课——
你的天花板不在自己身上,在你愿不愿意学会让 Agent 在你睡觉时帮你干活。
七、立刻可上手清单
不想看长篇大论?直接抄这份 checklist:
□ 装 ARIS(git clone + bash tools/install_aris.sh) □ 配跨家族 Reviewer(Claude + DeepSeek 或 Claude + GPT) □ 选你的第一个"睡眠任务"(写作 / 调研 / 数据分析) □ 把这个任务写成一个 Markdown Skill □ 跑 3 次,每次让 Reviewer 评分 □ 建立 Research Wiki(成功/失败/根因都记录) □ 第 4 次跑之前让 AI 读 Wiki □ 比较第 4 次和第 1 次的产出质量 □ 把跑通的 Skill 沉淀进个人技能库 □ 把这套流程推到第二个任务10 天就能跑通一个。30 天能跑通 3-5 个并行任务。3 个月后,你的产出能力会让你自己都吃惊。
八、写在最后
我做独立开发者第二年,最痛苦的不是"赚不到钱",是"明明看到机会但精力不够"。
ARIS 这篇论文让我意识到一件事——Solopreneur 真正稀缺的不是时间,是审查能力。
你能不能让 Agent 帮你干活,取决于你敢不敢把"审查权"交给 AI。
能不能让 Agent 干得对,取决于你愿不愿意搭跨模型对抗。
能不能让 Agent 越干越好,取决于你愿不愿意建 Wiki 让经验累积。
这三件事的本质都不是"技术",是"思维方式"。
技术早就有了——Claude、GPT、DeepSeek、ARIS 开源、ModelScope 免费。
思维方式才是分水岭。
愿你早日学会让 AI 在你睡觉时干活。
那时候你就会明白——一个人 + 一台电脑 + 24 小时,不是上限。
资源汇总
- ARIS 论文:https://arxiv.org/abs/2605.03042
- ARIS 代码(9.9k Stars):https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
- 36氪深度报道:https://m.36kr.com/p/3799050979040518
- 国内免费方案 ModelScope 指南:见 GitHub repo
docs/MODELSCOPE_GUIDE.md - 阿里 Coding Plan 配置(一个 key 用 4 个模型):见 GitHub repo
写于 2026-05-18
作者:路易乔布斯
xx号:一深思AI