Agent 协作新范式，来了！-平芜编程栈

故事是这样的。

前两天，我在地铁上刷手机，看到阿里 Qoder 为他们的移动端招募体验者，看到 Qoder 出了移动端，我的第一反应是：这玩意，有必要吗？

过去这一年多，把 AI Agent 塞进钉钉、飞书、企微里干活，已经是成熟得不能再成熟的玩法了。在群里 @ 一下，让它总结个文档、跑个数据、修个小 bug，Agent 悄悄把活干了，然后把结果丢回来。这套流程轻巧、直接，我也用得很顺手。

那为啥还要单独做个 App？IM 里不是已经能干活了吗？

带着这个疑问，我搞了个体验资格，认真用了两天。然后我发现，我之前可能想错了。

不是“IM 够用了为啥还要 App”，而是有些活，IM 这个形态可能压根就装不下。

坦率的讲，我们这一年聊 Agent，聊得最多的场景其实是“丢出去等结果”。你把任务交代清楚，Agent 去跑，跑完把结论扔回来，你验收一下就行。这确实是大部分日常工作流的真相，也是 IM 接入 Agent 最舒服的姿势。

但问题在于，不是所有活都能这么干的。

有些活，你得看着它干。得在它走偏的时候拉一把，得在高风险的节点亲自拿主意。这种“过程需要我把关”的任务，IM 就有点接不住了。

你想想看，在 IM 里 Agent 干活是什么样的？它给你发一堆消息，告诉你“我在查日志了”、“我在读代码了”、“我准备改配置项了”。这些消息按时间线往下排，就像你和一个话痨同事的聊天记录。如果这个任务跑了 30 轮交互、几十次工具调用、上百次文件读写，那 IM 里的消息轻轻松松就是几百上千条。你想找到“那一刻它为什么选了方案 A 而不是方案 B”的依据，得手指滑动半天，上下文早就丢得七零八落了。

说真的，这不是 Agent 的问题，是 IM 这个产品形态本身的问题。

IM 是 human-to-human 的产品，底层是会话流。一个聊天窗口就是一条无限延伸的时间线，所有内容都是消息，按时间往下排。这套范式是几十年人和人协作打磨出来的，用来跟人聊天、跟同事沟通，非常扎实。但它不是为“另一种主体”准备的。

而 Qoder 移动端，做了一件事：把底层从会话流，换成了任务流。

打开 App，我看到的不是聊天列表，而是一整屏任务卡片。哪几个任务在跑、哪个在等你决策、哪个跑完了等你看，一眼能看清。点进一个任务，里面是这次会话的完整结构：当前的 plan、Agent 的思考链、用过的工具、走到的决策点。

这种感觉太爽了。

它不是给你推一条条消息，而是把整个任务的“作战地图”摊在你面前。Plan、思考链、工具调用、文件变更，每一项都是一个可展开的节点，不是一条平铺的消息。你可以在几秒钟内定位到任何一个决策节点，去查看当时 Agent 的依据，去放行、拒绝、修改，或者退回去让它重来。

这里我给大家还原一个我测试的真实场景。

我给 Agent 设了一个场景：凌晨线上某个服务报了错，Agent 顺着告警查下去，翻了最近的 commit 记录和监控日志，整理出了一份初诊报告和两套修复方案。方案 A 是改配置，风险低但需要灰度验证；方案 B 是回滚某个依赖版本，见效快但有微小兼容性风险。

第二天早上，我挤进早高峰的地铁，掏出手机打开 Qoder 移动端。任务列表里，“线上告警修复方案”这张卡片正亮着红点，状态是“等待确认”。

点进去，初诊报告、两套方案的 plan、Agent 的权衡过程、引用的代码片段，全都在一屏里。Agent 为什么倾向于方案 A？因为它在思考链里标着：根据历史灰度记录，该配置项变动的熔断机制在同类场景下触发概率小于 1%。它还调工具对比了最近三次类似告警的处理方式，发现两次最终选了“改配置”。

我读了两分钟，选了方案 A，备注了一句“先小流量灰度 5%，观察 15 分钟再全量”，划走。

整个过程，我不需要切回桌面，不需要在工作群里请同事帮忙转述上下文，更不需要在几百条消息里翻找那个“它为什么要这么干”的依据。就两分钟，一个需要我亲自拍板的决策，在地铁上搞定了。

我跟你说，用完之后我就一直在想一个事儿。

我们之前总说“AI Agent 是数字员工”，但说实话，IM 里那个被 @ 之后默默干活的 Agent，更像一个“数字工具人”。你给它指令，它还你结果，中间发生了什么你不知道，也不太关心。

但 Qoder 移动端里的 Agent，更像一个“需要你把关的远程同事”。

它会带着依据来请示你，把自己的推理过程摊开给你看，让你在关键节点拿主意。它不是在事后告诉你“我做了 A 选择”，而是在事前跟你说“这是我选 A 的理由、风险和建议，请你确认”。决策的颗粒度，从“事后得知”变成了“节点干预”。

这还没完。

真正让我觉得这件事有意思的，是另一个维度。

过去我们聊 AI 办公，想象的画面基本还是“人在电脑前，AI 在旁边辅助”。但 Qoder 移动端把这个边界打破了。它把 Agent 的能力真正解绑了桌面，让你在通勤路上、排队间隙、甚至吃饭时瞄一眼手机，就能完成一次高质量的工作决策。

你品，你细品。

这意味着什么？意味着“指挥 AI 干活”这件事，从“必须坐在电脑前”变成了“随时随地”。对于很多需要碎片化决策的场景来说，这个自由度，可能比你想象的要重要得多。

当然，我也不能光说好的。

目前这个移动端首发接入的是 Qoder CLI，还没打通 QoderIDE、QoderWork 这些产品。也就是说，你通过手机能指挥的 Agent，主要还是 CLI 发起的任务。官方说近期会全面支持 iOS 和 Android 双端，未来还会打通全系 Agent 产品，包括他们马上要启动邀测的 QoderWake 数字员工。

说实话，我还挺期待那个画面的。当 QoderIDE、QoderWork、QoderWake 全部被打通，你在手机上随时可以调度一整个数字员工团队的时候，那个感受，应该会跟今天又完全不一样。

另外在一些网络不太稳定的环境下，任务状态的同步偶尔会有几秒延迟。不算大问题，但如果能优化得更丝滑一点，体验会更好。

扯远了，回到这件事本身。

Qoder 全系产品现在已经有超过 500 万用户了，ARR 突破 6000 万美元，是国内收入最高的 Agent 产品之一。阿里在这个节点把 Agent 能力延伸到移动端，我觉得他们想做的，不是给 Qoder 多加一个聊天入口，而是重新定义“人和 Agent 应该怎么协作”这件事。

IM 做轻量任务调度，独立的 Agent 移动端做有深度、需判断的关键工作，两者不是替代关系，而是构成了一个分级协作体系。

有一本我很喜欢的书，叫《北京折叠》。

小说里，北京被分成了三个物理空间，不同的人生活在不同的空间里，共享着同一个 24 小时。

而在 AI 协作这件事上，好像也在发生某种“折叠”。

轻的任务，在 IM 的时间线里快速流转；重的任务，在任务流里被结构化成可导航、可复盘的工作单元。你不必在两种模式之间硬选一个，而是根据需要，随时切换。

回到最开始那个问题：为什么还需要一个独立的 Agent 移动端？

我的答案很简单。

因为有些活，你得看着它干，而不是等它干完再说。