告别手动点击!用Open-AutoGLM一键执行跨App任务
你有没有过这样的时刻:想在小红书查完攻略,立刻跳到美团比价,再顺手在微信里把链接发给朋友——结果手指在屏幕上划了七八次,点开又退回,反复切换,最后干脆放弃?
这不是效率问题,是人机交互的天然断层。而今天要聊的 Open-AutoGLM,正在悄悄抹平这道沟壑。它不只“看懂”你的手机屏幕,更会“动手”帮你做完整件事:一句话指令,自动跨App完成搜索、跳转、输入、点击、关注、下单……全程无需你碰一下屏幕。
这不是概念演示,也不是实验室玩具。它是智谱开源的、真正跑在真实安卓设备上的 AI Agent 框架——AutoGLM-Phone,而 Open-AutoGLM 是它的官方控制端实现。它把大模型的规划能力、多模态的视觉理解、以及 ADB 的底层操控拧成一股绳,让手机第一次拥有了“自己做事”的本能。
这篇文章不讲空泛架构,不堆参数指标,只聚焦一件事:怎么让你的电脑和手机,在十分钟内联手,听懂你的一句话,然后替你把事干完。无论你是想批量操作测试机的 QA 工程师,还是被重复操作折磨的产品运营,或是单纯想解放双手的普通用户,这篇实操指南都为你准备好了可即刻复现的完整链路。
1. 它到底能做什么?先看几个真实场景
在深入部署前,我们先建立一个清晰的认知锚点:Open-AutoGLM 不是语音助手,也不是简单脚本录制工具。它的核心能力在于意图理解 + 界面感知 + 动作规划 + 跨App执行的闭环。来看几个它已稳定跑通的真实任务:
1.1 跨平台比价与下单闭环
“对比京东和淘宝上‘LUMMI MOOD洗发水’的价格,选便宜的下单,地址用默认收货地址。”
AI 会自动:
- 退出当前 App(如小红书),启动京东 → 搜索商品 → 截图识别价格 → 记录;
- 切换至淘宝 → 同样搜索 → 识别价格 → 对比;
- 若京东更便宜,则点击“加入购物车”→“去结算”→“提交订单”;
- 全程不依赖预设坐标,而是实时理解界面元素语义(如“立即购买”按钮、“¥89.00”文本、“默认地址”标签)。
1.2 社交平台深度互动
“打开抖音,搜索抖音号 dycwo11nt61d,进入主页,关注他,并点赞最新发布的3条视频。”
AI 会自动:
- 启动抖音 → 点击顶部搜索栏 → 输入账号名 → 点击搜索结果 → 进入主页;
- 识别“关注”按钮并点击(即使按钮文字是“+ 关注”或“已关注”,也能区分状态);
- 滚动首页,定位最新3条视频 → 逐个点击心形图标 → 确认点赞成功。
1.3 信息提取与结构化处理
“打开微信,找到和‘张经理’的聊天记录,把今天上午他发的PDF文件下载到本地,再用WPS打开并提取第2页表格数据,保存为Excel。”
AI 会自动:
- 切换至微信 → 在聊天列表中定位“张经理” → 进入对话 → 向上滚动查找今日消息;
- 识别PDF缩略图 → 长按触发菜单 → 点击“下载”;
- 检测下载完成提示 → 启动WPS → 打开该文件 → 定位第2页 → 识别表格区域 → 复制内容 → 新建Excel粘贴。
这些不是理想化描述,而是基于 AutoGLM-Phone-9B 模型在真实设备上反复验证的行为序列。它的强大之处在于:不依赖固定UI路径,不硬编码控件ID,而是像人一样“看”屏幕、“想”步骤、“做”动作。
2. 为什么是 Open-AutoGLM?三大不可替代性
市面上已有不少自动化工具(如 Tasker、Auto.js),但 Open-AutoGLM 的差异化价值非常明确,它解决的是传统方案无法触及的三类痛点:
2.1 真正的“自然语言驱动”,而非脚本编程
传统工具要求你写逻辑:“如果页面包含‘搜索框’,则点击;否则滑动”。而 Open-AutoGLM 只需要你说话:“帮我搜美食”。它内部将这句话拆解为:
- 意图识别:这是搜索任务(非安装、非设置);
- 目标定位:“美食”是关键词,“小红书”是目标App;
- 动作规划:启动App → 找搜索入口 → 输入文字 → 点击搜索 → 解析结果页。
你不需要知道小红书的包名、搜索框的resourceId、甚至不用截图标注——语言就是最高效的接口。
2.2 多模态界面理解,告别“坐标依赖”
很多自动化方案靠坐标点击(x=500, y=300),一旦屏幕分辨率变化或UI改版就失效。Open-AutoGLM 的视觉语言模型(VLM)直接分析屏幕截图,理解:
- 文字内容(“搜索”、“关注”、“¥129”);
- 图标语义(放大镜图标=搜索,心形=点赞);
- 布局关系(标题在上方,按钮在下方,列表垂直排列);
- 交互状态(“关注”按钮颜色变深=已点击)。
这意味着:同一套指令,在华为、小米、OPPO不同机型上,只要界面逻辑一致,就能稳定运行。
2.3 内置安全护栏,兼顾能力与可控
AI 自动操作手机,安全是红线。Open-AutoGLM 设计了三层保障:
- 敏感操作确认机制:当检测到“删除联系人”“清除所有数据”“支付”等高危动作时,自动暂停并弹出确认提示,需人工点击“继续”才执行;
- 人工接管通道:在登录页、验证码输入页等需要生物识别的环节,AI 会停止自动流程,等待你手动输入后,再继续后续步骤;
- 远程调试支持:通过 WiFi ADB 连接,你可以在电脑端实时查看手机屏幕画面、日志流、动作轨迹,全程透明可追溯。
这使得它既能胜任复杂任务,又不会变成一个“失控的遥控器”。
3. 本地环境准备:三步搞定你的控制端
Open-AutoGLM 的控制端运行在你的本地电脑(Windows/macOS),负责接收指令、调用云端模型、下发ADB命令。整个过程无需编译,纯 Python 环境即可启动。
3.1 安装 ADB 工具(5分钟)
ADB(Android Debug Bridge)是连接电脑与安卓设备的桥梁。无论你用 USB 还是 WiFi,都必须先配好它。
Windows 用户:
- 下载 Android Platform Tools;
- 解压到任意文件夹(如
C:\adb); Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你的 ADB 解压路径(如C:\adb);- 打开新命令行窗口,输入
adb version,看到版本号即成功。
macOS 用户:
# 假设你把 platform-tools 放在 ~/Downloads/ echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version
3.2 手机端设置(3分钟)
真机才能体现真实价值。请按顺序开启三项设置:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示。开启 USB 调试:
设置 → 系统 → 开发者选项 → 找到“USB调试”,开启开关。安装并启用 ADB Keyboard(关键!):
- 下载 ADB Keyboard APK 并安装;
- 设置 → 语言与输入法 → 当前输入法 → 切换为 “ADB Keyboard”;
(这是实现AI自动输入文字的必要条件,没有它,AI只能点,不能输)
小技巧:首次连接时,手机会弹出“允许USB调试吗?”提示,请勾选“始终允许”,避免每次重连都要确认。
3.3 克隆并安装 Open-AutoGLM(2分钟)
一切就绪后,打开终端(Windows 用 PowerShell,macOS 用 Terminal):
# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖 pip install -r requirements.txt pip install -e .此时,你的本地控制端已准备完毕。下一步,是让它“看见”你的手机。
4. 连接你的手机:USB 与 WiFi 两种方式
Open-AutoGLM 支持两种连接模式,根据你的使用场景选择:
4.1 USB 直连(推荐新手首选)
最稳定,延迟最低,适合调试和日常高频使用。
# 在终端中执行(确保手机已用USB线连接且已授权调试) adb devices如果输出类似:
List of devices attached ABC123456789 device说明连接成功。ABC123456789就是你的--device-id。
4.2 WiFi 远程连接(适合多设备管理)
摆脱线缆束缚,一台电脑可同时控制多台同网段手机。
# 1. 先用USB线连接,开启TCP/IP模式 adb tcpip 5555 # 2. 拔掉USB线,用WiFi连接(需知道手机IP) adb connect 192.168.1.100:5555 # 替换为你的手机实际IP如何查手机IP?设置 → WLAN → 点击当前连接的WiFi → 查看“IP地址”。连接成功后,adb devices会显示192.168.1.100:5555 device。
注意:WiFi 连接对网络稳定性要求较高。若频繁断连,建议切回USB模式。
5. 启动 AI 代理:一句话,让它开始工作
现在,云端模型服务(vLLM)已在你的算力服务器上运行,本地控制端也已配置好,手机也已连接。万事俱备,只需一条命令:
python main.py \ --device-id ABC123456789 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘上海咖啡探店’,收藏前3篇笔记!"参数详解:
--device-id:从adb devices获取的设备标识(USB)或 IP:端口(WiFi);--base-url:指向你云服务器上 vLLM 服务的地址(格式:http://<公网IP>:<映射端口>/v1);--model:服务中注册的模型名称,部署时指定为autoglm-phone-9b;- 最后引号内的字符串:你的自然语言指令,越具体越好。
执行后,你会看到终端实时打印出 AI 的思考过程:
[INFO] 截取当前屏幕... [INFO] 将截图与指令发送至模型... [THINK] 用户想在小红书搜索“上海咖啡探店”,需启动App、定位搜索框、输入文字、执行搜索、识别笔记卡片、执行收藏。 [ACTION] do(action="Launch", app="小红书") [ACTION] do(action="Click", x=..., y=..., text="搜索") [ACTION] do(action="InputText", text="上海咖啡探店") ... [INFO] 任务完成:已收藏3篇笔记。整个过程完全自主,你只需看着手机屏幕自动操作,就像有个隐形助手在替你指尖飞舞。
5.1 进阶用法:Python API 封装调用
如果你希望将 Open-AutoGLM 集成进自己的脚本或系统,它提供了简洁的 Python API:
from phone_agent.main import run_task # 一行代码启动任务 result = run_task( device_id="ABC123456789", base_url="http://123.45.67.89:8800/v1", model_name="autoglm-phone-9b", instruction="打开微博,搜索‘AI快讯’,转发最新一条带图片的微博" ) print("执行状态:", result.status) print("耗时:", result.duration, "秒") print("最终动作:", result.final_action)这让你可以轻松构建:自动化测试流水线、电商比价监控机器人、社交媒体运营助手等生产力工具。
6. 常见问题与实战避坑指南
在真实部署中,你可能会遇到一些典型问题。以下是基于大量用户反馈整理的“避坑清单”,直击痛点:
6.1 “adb devices 显示 unauthorized”?
这是最常见的授权问题。解决方案:
- 断开USB线,关闭手机开发者选项中的“USB调试”;
- 重新开启“USB调试”,此时手机会再次弹出授权弹窗;
- 勾选“始终允许”,再点击“确定”。
6.2 “模型返回乱码或空响应”?
大概率是 vLLM 启动参数不匹配。重点检查三项:
--max-model-len 25480:必须与模型实际最大长度一致,少一位都会截断;--mm_processor_kwargs "{\"max_pixels\":5000000}":必须严格复制,引号和转义不能错;--model /app/model:路径必须指向容器内挂载的模型目录,不是宿主机路径。
6.3 “AI 点错了位置,或者找不到按钮”?
不是模型问题,而是屏幕截图质量不足。请确保:
- 手机屏幕亮度调至最高(避免暗色界面导致文字识别失败);
- 关闭“深色模式”(部分VLM对深色背景适配不佳);
- 清理屏幕悬浮窗、通知栏(它们会干扰界面理解)。
6.4 “执行到支付/删除步骤就卡住”?
这是安全机制在起作用。此时:
- 查看终端日志,会明确提示“检测到高危操作:confirm_payment”;
- 手机屏幕会弹出确认框,点击“继续执行”即可;
- 如需关闭此机制(仅限可信环境),可在
main.py中修改safety_check=True为False。
7. 总结:从“手动操作”到“自然对话”的范式迁移
Open-AutoGLM 不仅仅是一个工具,它代表了一种人机交互范式的悄然迁移:
过去,我们学习 App 的操作逻辑(哪里点、怎么滑、什么路径);
未来,我们只需表达需求(“帮我订一杯瑞幸的生椰拿铁”),剩下的,交给 AI。
这篇文章带你走完了从零到一的全链路:
理解了它能做什么(跨App闭环任务);
明白了它为何独特(自然语言+多模态+安全护栏);
配置好了本地控制端(ADB+手机设置);
连接了你的真机(USB/WiFi);
启动了第一个任务(一句话指令);
掌握了排错方法(避开90%的部署陷阱)。
下一步,你可以尝试:
- 把常用操作(如每日打卡、周报生成)写成批处理脚本;
- 结合定时任务(cron),让 AI 每天早上8点自动打开天气App并截图发到钉钉群;
- 或者,挑战一个更复杂的任务:“帮我分析竞品App的首页UI,找出3个设计亮点,并生成一份PPT大纲”。
技术的价值,永远在于它如何解放人的精力,让人回归思考与创造本身。当你不再为“点哪里”而分心,真正的效率革命,才刚刚开始。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。