Solopreneur 7×24 Agent 工作流：从 ARIS 论文里抠出 5 个可落地步骤-平芜编程栈

论文：ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
arXiv:2605.03042（2026.5.4 上海交大）
适合人群：独立开发者 / Solopreneur / 想搭"睡眠工作流"的人

一、先讲一个我自己的故事

我做独立开发者两年多，最焦虑的一件事不是没活干，是有活干但做不完。

一个人 + 一台电脑 + 24 小时——这个组合的天花板，我以为已经被我撞死了。

直到 5 月 4 号上海交大放出 ARIS 这篇论文，我才意识到一件事：天花板不在我身上，在我没有学会让 AI 在我睡觉时帮我干活。

不是"自动化",不是"workflow",不是"AI 助手"——是有审查机制的、能自我修正的、能持续累积经验的 7×24 工作流。

这篇文章不讲 ARIS 是什么（那是另一篇技术拆解的事）。这篇只讲一件事——

作为一个独立开发者，怎么把 ARIS 论文里的方法搬到自己的工作流里，让 AI 在你睡觉时真的把活干完。

二、为什么之前你的"AI 工作流"都失败了

先复盘一个真相。

很多人在 2024-2025 年都尝试过搭"AI 工作流"。AutoGPT、BabyAGI、AutoGen——名字一茬接一茬。但 90% 的人最后都放弃了，回到"我盯着 Cursor 自己写代码"的状态。

为什么？

我做了 6 次失败实验后，总结出 3 个根因——

根因 1：跑着跑着就开始"编"

让 AI 跑长任务（>1 小时），中间没有人盯着，它会写一些看起来对、但实际编造的东西。最常见的：

引用一篇不存在的论文
计算一个数据时用了错的公式但结论看起来合理
写一段代码"看起来能跑"，实际 import 的库根本没装

ARIS 论文里给这件事起了一个名字：「看似合理但缺乏支撑的成功」（plausible but unsupported success）。这是长 Agent 的头号杀手。

根因 2：每次都从零开始

跑了 100 次 AI 工作流，每一次都是白纸一张。同一个错误被犯 100 次。同一个想法被尝试 100 次。

没有经验沉淀的工作流，是永远不会变好的工作流。

根因 3：没有"裁判"

让一个 LLM 自己生成自己审查，等于让运动员自己当裁判——永远过关。

但很多人不知道这件事的关键不是"找个裁判"，而是"找不同家族的裁判"。同一个模型的盲区是一致的，互相审查就是互相放水。

三、ARIS 论文给我的核心启发：从「Executor First」到「Reviewer First」

ARIS 这篇论文的核心机制简单到一句话能说清：

让 Claude 写、让 GPT 审、互相挑刺、直到达标。

但魔鬼在细节里。

论文实测的隔夜数据：

总耗时：8 小时
审查-修改循环：4 轮
评分从 5.0/10 → 7.5/10
触发 20+ 次 GPU 实验
AI 主动删除了证据不足的结论

最后一条最让我震撼——AI 主动删除自己写过的话。这是过去所有 AI 工作流都不会发生的事。它不再是"硬塞内容"的生成器，而是"对自己负责"的工作伙伴。

这件事改变了我对 AI 工作流的认知：

之前的认知	现在的认知
AI 工作流 = 让 AI 自己干	AI 工作流 = 让 AI 跟 AI 互相约束
重点是 Executor 多强	重点是 Reviewer 多严
Reviewer 是个评分插件	Reviewer 是个独立干活的 Senior
一个模型就够了	必须跨家族（Claude × GPT / DeepSeek 等）
工作流靠 prompt 工程	工作流靠 Markdown 技能库

如果你只能从这篇文章里带走一句话——长周期 Agent 的瓶颈不是生成能力，是审查机制。

四、Solopreneur 该怎么搭一套 ARIS 风格的工作流：5 个落地步骤

下面 5 步是我从 ARIS 论文+开源代码（9.9k Stars）里抠出来的可落地操作。每一步都给到具体可执行的命令和工具。

步骤 1：确定你的"睡眠任务"是什么

ARIS 是为科研设计的，但它的方法论适用于任何长周期 + 需要可信输出 + 重复发生的任务。

作为 Solopreneur，能跑"睡眠工作流"的典型任务：

任务类型	之前你怎么干	改成睡眠工作流后
行业研究报告	自己搜资料、整理、写 3 天	睡前下命令，早上拿成稿审
竞品分析	一家一家手抠数据	多个 Agent 并行抓 + 交叉验证
代码重构	全部自己做	Executor 改 Reviewer 审，自动跑测试
周报/月报	复盘+写作 1 小时	数据汇总 + 草稿生成 + 自审
内容创作（公众号/CSDN）	全程手写	大纲生成 → 草稿 → 自审 → 你最后润色
数据分析	手写 SQL + 跑 Notebook	计划生成 → 执行 → 结论审计

但有一个反向清单——下面这些任务不适合睡眠工作流：

需要实时反馈的（聊天客服、临场决策）
涉及不可逆操作的（生产环境部署、资金交易）
需要法律或医疗专业判断的
跟人有强情感连接的（私人沟通）

判断标准：如果做错了能容忍代价 + 任务足够长 + 重复发生，就适合上睡眠工作流。

步骤 2：搭一个"跨家族对抗"的最小配置

ARIS 论文的核心是跨模型审查。但作为独立开发者，你不需要直接装 ARIS-Code CLI。你可以用最简单的方法：

最小配置（零成本起步）：

执行者（Executor）：Claude Code（或 Cursor 接 Claude） 审查者（Reviewer）：用 ModelScope 免费层接 DeepSeek 或 Qwen

为什么是这个组合？

Claude 在长文生成、代码、推理上稳
DeepSeek 在审查、找逻辑漏洞上特别敏锐
两家训练数据和对齐方法完全不同——盲区不重叠
ModelScope 免费层基本能覆盖个人开发者的用量

配置过程（10 分钟搞定）：

装 ARIS（项目本地符号链接安装）：

gitclone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.gitcdAuto-claude-code-research-in-sleepbashtools/install_aris.sh

配置 Codex MCP 作为 Reviewer：

npminstall-g@openai/codex codex setup# 提示时选 gpt-5.5claude mcpaddcodex-suser -- codex mcp-server

不想用 GPT？换成国产模型：

# 通过 mcp-servers/llm-chat 桥接，支持：# DeepSeek V4 Pro / GLM-5 / Kimi K2.5 / Qwen 3.6 / MiniMax M2.7

进阶配置（已经赚钱了再升）：

Executor：Claude Opus 4.7（用 Pro 订阅） Reviewer：GPT-5.4 Pro（通过 oracle-pro 路由） 后端模型：MiniMax M2.7（备份）

ARIS 论文里说默认双模型最优——不是 3 个、4 个，就是 2 个。多了反而陷入"扯皮"。

步骤 3：把你的工作流写成 Markdown Skill

这是 ARIS 最颠覆我的设计——所有技能都用 Markdown 写，不是 Python 不是 YAML。

为什么？因为 Markdown 是所有 LLM 的母语。你写一个 Skill，今天用 Claude，明天换 DeepSeek，后天上 Qwen——一个字都不用改。

举个例子，我自己写过一个《写公众号文章》的 Skill：

--- name: wechat-article-writer description: 写一篇课堂型公众号文章 inputs: [topic, target_audience, key_points] outputs: [DRAFT.md, COVER_PROMPT.md] --- ## 步骤 1：审题 - 这个话题的"之前 vs 之后"是什么？ - 目标读者最痛的痛点是什么？ ## 步骤 2：搭骨架 - 痛点 → 框架 → 实操 → 反思 4 段式 - 每段必须有具体数据或案例 ## 步骤 3：写草稿 - 标题 35-40 字，包含一个反直觉点 - 开头 300 字必须给读者一个"我必须读下去"的钩子 - 每个章节配一个"effects 图"或代码块 ## 步骤 4：自审 - 有没有 AI 腔？（"首先""其次""综上所述"= 红灯） - 有没有具体数据？（占比 / 数字 / 案例） - 有没有反直觉点？ ## 步骤 5：产出 - DRAFT.md - COVER_PROMPT.md（给 Nano Banana / Kolors 用）

写完之后，扔到~/.claude/skills/下，任何时候喊：

/wechat-article-writer"ARIS 论文解读"— target_audience: 独立开发者

它就开始按这个流程走。

核心原则：把所有重复发生的工作，都写成 Markdown Skill。

步骤 4：配置三道"反幻觉"保障

这是 ARIS 论文里最值得抄作业的部分——Assurance Layer。

作为独立开发者，你不需要 ARIS 那么复杂的 5 层审查。但有 3 道保障是必须配的：

保障 1：跨模型评分

每次 Executor 出稿后，让 Reviewer 用结构化评分卡打分：

评分维度（各 0-10）： - 事实准确性 - 数据有引用 - 逻辑连贯 - 没有AI腔 - 没有空话套话 - 有具体案例 总分 < 7.5：返回行动项重写 总分 >= 7.5：通过

保障 2：引用核验

凡是 AI 引用的论文、数据、名人原话，必须能核验。最简单的方式：

# 在 Skill 里加这一段：对每条引用，验证三件事：1. 这个来源真的存在吗？（给 URL 让你验证）2. 这个来源真的说过这话吗？（给原文片段）3. 引用语境跟原文一致吗？（不能曲解）

ARIS 把这件事叫做citation-audit。AI 幻觉里最危险的就是"引用了真实存在但说法被篡改的内容"。

保障 3：用一个"无上下文审查者"做最终验证

这是 ARIS 最巧妙的设计——最后一道审查，用一个完全没看过前面对话的新模型来做。

为什么？因为前面的 Reviewer 跟 Executor 来来回回讨论了几轮后，可能已经被"污染"——默认接受了某些主张。

新审查者相当于重置记忆，逼自己从原始数据重新验证一遍论文里的每一条数字。

具体怎么做？在你的工作流最后一步：

# 开一个全新会话（不带历史）# 把最终产出和原始数据一起给它# 让它逐条核验定量主张

步骤 5：搭一个 Research Wiki，让经验累积

这是我自己上 ARIS 后变化最大的一件事——强制让 AI 写日志、强制让 AI 读日志。

ARIS 论文里说：

失败 → 进"禁试清单"；成功 → 成为下一轮起点

具体在自己的工作流里怎么落地？

最简单的实现：一个 Markdown 文件

~/.solopreneur-wiki/ ├── failed-attempts.md # 失败的尝试 + 失败原因 ├── successful-patterns.md # 成功的模式 + 适用条件 ├── prompts-library.md # 验证过有效的 prompt └── client-context.md # 客户/项目长期上下文

每次 AI 跑完任务，强制让它写两件事：

这次成功在哪？失败在哪？
下一次跑类似任务，应该跳过什么、复用什么？

然后下次跑任务前，强制让它先读 Wiki。

ARIS 把这个流程自动化了：

/research-wiki init# 初始化/meta-optimize# 让系统读日志、提改进建议

如果你不用 ARIS，自己手动维护也可以——关键不是工具，是这个习惯。

五、一个真实的对照：用了 ARIS 思路后我的工作日

我把"7×24 工作流"上线后，我自己的工作日变了：

之前的工作日（10 小时全自己干）

08:00 起床喝咖啡 09:00 看竞品资讯 1 小时 10:00 写文章 / 写代码 3 小时 13:00 午饭 + 短暂休息 14:00 客户对接 2 小时 16:00 数据分析 + 写报告 3 小时 19:00 收工，但任务永远做不完

产出：1 篇文章 + 半个项目模块

之后的工作日（4 小时人 + 8 小时 Agent）

睡前 23:00： 下指令给 Agent： - 抓取行业 10 个最新动态 + 整理 - 起草明天的文章 v1 - 跑一个数据分析任务 - Reviewer 自审 + Wiki 更新 早上 08:00： 起床看 Agent 的产出 - 行业整理已就绪（10 分钟看完） - 文章草稿已写好（15 分钟我手动改） - 数据分析已跑完（5 分钟看结论） - 失败的尝试已记录到 Wiki 09:00 - 13:00： 人工干预 4 小时——做 Agent 做不了的事 - 客户对接（情感+判断） - 战略思考（长期规划） - 创意构思（最难的部分） 13:00 - 18:00： 自由时间——休息 / 学习 / 见人 晚上 22:00： 10 分钟下发明天睡眠任务 睡觉

产出：2 篇文章 + 1 个项目模块 + 1 个数据分析报告

差异：产出翻倍 + 工作时间减半。

但更重要的是——焦虑感几乎消失了。因为我知道睡觉的时候有"另一个我"在干活。

六、给独立开发者的 5 条心法

最后，超出 ARIS 论文之外，我自己实践半年总结的几条心法：

心法 1：永远先搭 Reviewer，再搭 Executor

90% 的人搭 AI 工作流时，第一步是想"让 AI 怎么做"。

错。第一步应该是"让 AI 怎么不做错"。

Reviewer 比 Executor 重要 10 倍。先把审查机制搭对，再考虑生成质量。

心法 2：Markdown 是 Skill 的最佳载体

不要用 Python 包装。不要用 YAML 描述。不要用 JSON 配置。

用 Markdown 写 Skill——人类能读、LLM 能懂、跨模型通用、热替换、可版本管理。

ARIS 9.9k Stars 不是白来的，这是社区用脚投出来的票。

心法 3：每次 Agent 运行都必须留下"日志学习"

跑 10 次 Agent 没记录，等于跑 1 次。

跑 1 次 Agent 留下结构化日志（成功/失败/根因/改进点），等于跑了 10 次的复利。

强制每一次 Agent 运行结束都写 Wiki——这是非线性提升的唯一来源。

心法 4：人保留在"创意 + 情感 + 不可逆"的环节

Agent 能做的：写、改、查、跑、整理、汇总。
Agent 做不了的：原创判断、情感连接、不可逆决策。

把你自己的精力100% 投资到 Agent 做不了的地方。其他全部 offload。

心法 5：Solopreneur 的真正护城河不是技能，是杠杆

之前一个人能做 1 倍的事。
现在一个人 + 1 个 Agent 工作流能做 3-5 倍的事。
明年一个人 + 5 个工作流 + 3 个跨模型审查机制能做 10-20 倍的事。

护城河不是你会什么，是你能调动多少倍的"复制版自己"。

ARIS 这篇论文，本质上是给所有 Solopreneur 上了第一课——

你的天花板不在自己身上，在你愿不愿意学会让 Agent 在你睡觉时帮你干活。

七、立刻可上手清单

不想看长篇大论？直接抄这份 checklist：

□ 装 ARIS（git clone + bash tools/install_aris.sh） □ 配跨家族 Reviewer（Claude + DeepSeek 或 Claude + GPT） □ 选你的第一个"睡眠任务"（写作 / 调研 / 数据分析） □ 把这个任务写成一个 Markdown Skill □ 跑 3 次，每次让 Reviewer 评分 □ 建立 Research Wiki（成功/失败/根因都记录） □ 第 4 次跑之前让 AI 读 Wiki □ 比较第 4 次和第 1 次的产出质量 □ 把跑通的 Skill 沉淀进个人技能库 □ 把这套流程推到第二个任务

10 天就能跑通一个。30 天能跑通 3-5 个并行任务。3 个月后，你的产出能力会让你自己都吃惊。

八、写在最后

我做独立开发者第二年，最痛苦的不是"赚不到钱"，是"明明看到机会但精力不够"。

ARIS 这篇论文让我意识到一件事——Solopreneur 真正稀缺的不是时间，是审查能力。

你能不能让 Agent 帮你干活，取决于你敢不敢把"审查权"交给 AI。
能不能让 Agent 干得对，取决于你愿不愿意搭跨模型对抗。
能不能让 Agent 越干越好，取决于你愿不愿意建 Wiki 让经验累积。

这三件事的本质都不是"技术"，是"思维方式"。

技术早就有了——Claude、GPT、DeepSeek、ARIS 开源、ModelScope 免费。
思维方式才是分水岭。

愿你早日学会让 AI 在你睡觉时干活。

那时候你就会明白——一个人 + 一台电脑 + 24 小时，不是上限。

资源汇总

ARIS 论文：https://arxiv.org/abs/2605.03042
ARIS 代码（9.9k Stars）：https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
36氪深度报道：https://m.36kr.com/p/3799050979040518
国内免费方案 ModelScope 指南：见 GitHub repodocs/MODELSCOPE_GUIDE.md
阿里 Coding Plan 配置（一个 key 用 4 个模型）：见 GitHub repo

写于 2026-05-18
作者：路易乔布斯
xx号：一深思AI

Solopreneur 7×24 Agent 工作流：从 ARIS 论文里抠出 5 个可落地步骤