亲测Open-AutoGLM,用自然语言自动操作手机真香了
你有没有过这样的时刻:
手指划到酸痛,还在反复点开APP、输入关键词、翻页找商品;
想订个外卖,却卡在“选规格→加小料→确认地址→比价”这一连串操作里;
或者只是想快速关注一个博主,结果在抖音里来回跳转、输ID、点关注,三步操作花了二十秒——而你真正想做的,其实就一句话:“帮我关注抖音号dycwo11nt61d”。
现在,这句话就够了。
我刚用智谱开源的Open-AutoGLM框架,让我的安卓手机真正听懂了人话。它不靠预设脚本,不依赖固定界面,而是看懂屏幕、理解意图、自主规划、精准点击——整个过程像有个真人坐在我旁边,替我完成所有手机操作。
这不是概念演示,也不是实验室Demo。这是我昨天在办公室实测的真实体验:从零部署到成功下单麦当劳巨无霸,全程不用碰一次手机屏幕。
下面,我就以一个普通开发者(非算法工程师)的身份,把整个过程拆解清楚。不讲模型结构,不谈多模态对齐,只说:怎么装、怎么连、怎么用、效果到底行不行。
1. 它到底是什么?一句话说清
Open-AutoGLM 不是一个APP,也不是一个手机插件。它是一套运行在电脑端的AI代理框架,核心能力只有两个:
- 看得懂:通过实时截图分析当前手机屏幕内容(文字、按钮、图标、布局);
- 做得对:把你的自然语言指令(比如“打开小红书搜美食”),拆解成一连串ADB命令(点击坐标、滑动、输入文字、返回上一页),自动执行。
它背后调用的是智谱发布的AutoGLM-Phone-9B视觉语言模型,但你完全不需要自己跑大模型——只要有一台能跑vLLM的云服务器(或本地显卡),再配一台普通安卓手机,就能立刻用起来。
最关键的是:它不越狱、不Root、不修改系统,只用官方ADB调试通道。这意味着——安全、合规、可随时中断。
2. 真机连接前的四步准备(小白友好版)
别被“ADB”“TCP/IP”这些词吓住。我用的是2021款红米Note10,Android 12,整个过程没查一次文档,全靠直觉+试错。下面这四步,每一步我都标出了“最容易卡住的坑”。
2.1 手机端:三分钟开启调试权限
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(数着点,别手抖),直到弹出“您已处于开发者模式”。
- 开启USB调试:设置 → 额外设置 → 开发者选项 → 打开“USB调试”。注意:有些手机这里还藏着“USB调试(安全设置)”,也一并打开。
- 安装ADB Keyboard(必须!):这是整个流程里最常被忽略的一步。
下载地址在GitHub仓库的docs/adb-keyboard.apk,安装后去“设置 → 语言与输入法 → 当前键盘”,手动切换为“ADB Keyboard”。
验证方法:在任意输入框长按,如果弹出“选择输入法”且能看到ADB Keyboard,就成功了。
小贴士:如果你跳过这步,程序会报错“无法输入文字”,但错误提示很隐晦。我第一次就在这里卡了40分钟。
2.2 电脑端:ADB环境,一行命令搞定
- Windows/macOS都支持。我用Mac,直接下载Android SDK Platform-Tools,解压后终端执行:
export PATH=$PATH:~/Downloads/platform-tools - 验证是否生效:
adb version # 输出类似:Android Debug Bridge version 34.0.5
常见坑:Windows用户如果用PowerShell,记得用
$env:Path += ";C:\path\to\platform-tools",别用cmd的语法。
2.3 连接方式选哪个?推荐优先用USB
| 方式 | 速度 | 稳定性 | 设置难度 | 推荐场景 |
|---|---|---|---|---|
| USB线直连 | ★★★★★ | ★★★★★ | ★☆☆☆☆ | 首次测试、调试阶段 |
| WiFi远程 | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ | 固定办公位、多设备管理 |
我建议:先用USB跑通,再切WiFi。因为WiFi需要先用USB执行adb tcpip 5555,断开后再连IP,中间任何一步失败都会导致“设备离线”。
2.4 检查连接状态:一眼看懂
插上手机(开启USB调试),在终端敲:
adb devices正常输出应该是:
List of devices attached ZY322KDLF8 device有device字样,说明手机已被识别。
❌如果显示unauthorized,请在手机上点“允许USB调试”。
❌如果空白,检查USB线(换根线试试)、电脑USB口(换前置/后置)、驱动(Windows需装ADB驱动)。
3. 控制端部署:三行命令,1分钟装完
Open-AutoGLM的控制端代码极轻量,全部在本地电脑运行,不占手机资源。
3.1 克隆+安装(全程联网,无需编译)
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM python3 -m venv .venv source .venv/bin/activate # Windows用 .venv\Scripts\activate pip install -r requirements.txt pip install -e .实测耗时:47秒(M2 Mac,网络良好)。requirements里没有CUDA依赖,纯CPU也能跑(只是调用云端模型,本地只做指令调度)。
3.2 验证部署:一条命令测通路
假设你的云服务器IP是10.1.21.133,vLLM服务映射端口是8000,模型名是autoglm-phone-9b,运行:
python scripts/check_deployment_cn.py \ --base-url http://10.1.21.133:8000/v1 \ --model autoglm-phone-9b看到输出{"status": "success", "message": "Model is ready"},就代表云端模型通了。
如果报错
Connection refused,90%是云服务器防火墙没放行8000端口。用ufw allow 8000(Ubuntu)或安全组补全规则即可。
4. 第一次真机操作:从“打开抖音”到“关注博主”
这才是最激动人心的部分。我们跳过所有理论,直接上手。
4.1 最简指令:打开一个APP
确保手机已连接,ADB识别成功,执行:
python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音"你会看到:
- 终端开始滚动日志:“正在截图… 识别到‘抖音’图标… 计算点击坐标… 执行tap…”
- 手机屏幕瞬间亮起,自动点亮、解锁(如果锁屏)、找到抖音图标、点击进入。
整个过程约8秒(含截图传输+模型推理+ADB执行)。比我手动找图标快3秒。
4.2 进阶指令:带搜索的完整链路
试试这句:
python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"它做了什么?
- 打开抖音 → 点击搜索框 → 输入
dycwo11nt61d→ 点击搜索; - 在结果页识别“用户”标签 → 找到头像和昵称匹配的账号;
- 点击进入主页 → 识别“关注”按钮 → 点击。
我录了屏,整个流程12.3秒,无误操作。关注成功后,手机弹出“已关注”提示。
关键洞察:它不是靠“找文字”硬匹配,而是理解语义。“抖音号为XXX”被准确解析为“在用户搜索结果中定位该ID对应的账号”,哪怕ID藏在个人简介里,它也能跨页面追踪。
4.3 复杂任务:美团点单实战
这才是检验真实能力的时刻。我给的指令是:
“在美团上点个麦当劳巨无霸”
执行命令:
python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在美团上点个麦当劳巨无霸"它完成了:
- 打开美团 → 点击首页搜索框 → 输入“麦当劳” → 点击第一个店铺;
- 滑动菜单 → 识别“巨无霸”文字 → 点击进入商品页;
- 识别“加入购物车”按钮 → 点击 → 弹出规格选择 → 自动选“标准” → 点击“确定”;
- 跳转购物车 → 点击“去结算” → 停在支付页(此处触发人工接管,因涉及支付安全)。
从打开APP到加购成功,共27秒。中间没有一次误点、没有一次返回重来。
注意:支付环节它主动暂停,并在终端提示“检测到敏感操作(支付),已暂停,按回车继续”。这是内置的安全机制,非常务实。
5. 实测效果深度观察:它强在哪?弱在哪?
我连续测试了12个不同指令,覆盖电商、社交、工具、生活类APP。以下是真实反馈,不吹不黑。
5.1 三大惊艳之处
界面泛化能力强:
同一个“微信扫一扫”,在微信主界面、聊天窗口、公众号文章里,图标位置、样式完全不同。但它每次都能准确定位,不依赖固定坐标。指令容错率高:
我试过说“给我搜一下小红书上的咖啡探店”,它自动理解为“打开小红书→点搜索→输入‘咖啡探店’→点搜索”。
甚至说“那个蓝色图标叫啥”,它先识别屏幕所有蓝色图标,再读取旁白文字,返回“小红书”。多步操作不迷路:
“打开淘宝,搜iPhone15,点销量排序,选价格最低的,加购”——它真的走完了全部5步,且在“销量排序”按钮被折叠时,主动先点“更多筛选”,再找排序项。
5.2 当前明显短板(实测发现)
动态加载内容识别延迟:
在小红书刷新瀑布流时,它有时会截到“加载中”画面,导致下一步等待超时。建议加--timeout 30参数延长等待。小字体/模糊图标识别不准:
微信聊天里的“拍一拍”文字太小,它曾误判为“收藏”。解决方案:提前用adb shell wm density 320调高手机DPI,让文字更清晰。横屏APP支持待优化:
B站横屏播放页,它偶尔把“点赞”按钮坐标算偏。临时方案:加--orientation portrait强制竖屏操作。
6. 安全与边界:它不会做什么?
很多人第一反应是:“这会不会偷偷删我微信?”
答案很明确:不会,也不可能。
- 所有ADB命令都在你本地电脑生成,你随时可Ctrl+C中断;
- 每次执行敏感操作(安装APP、删除应用、发送短信、支付)前,终端必停顿并提示;
- 它没有获取通讯录、短信、定位的权限——ADB本身就不提供这些接口;
- 远程WiFi连接需你主动执行
adb connect,断开即失效,无后台驻留。
你可以把它理解为:一个只听你语音指挥、每步都向你汇报、关键动作要你点头的数字助理。它强大,但完全可控。
7. 总结:这不是未来,是今天就能用的生产力工具
Open-AutoGLM 没有颠覆手机交互,但它实实在在地抹平了一条鸿沟:
把“我想做什么”的模糊意图,变成“手机立刻执行”的确定动作。
它不适合替代所有操作——你不会用它来打游戏、修图、写长文。
但它绝对适合:
批量处理重复任务(比如每天定时刷10个APP签到);
辅助视障用户操作手机(配合TalkBack,把界面描述转为语音);
测试工程师做UI回归(一句“登录后进个人中心,检查头像是否显示”自动生成测试流);
老年人远程协助(子女在电脑端输入“帮爸打开健康码”,手机自动执行)。
最让我意外的,是它的“接地气”。
没有炫技的3D渲染,没有复杂的配置面板,就是一行命令、一句中文、一次点击——然后,事情就成了。
如果你也厌倦了在手机上反复点点点,不妨花30分钟,按这篇教程搭起来。
当你第一次说出“打开小红书搜美食”,看着手机自动完成全部操作时,那种“原来真能这样”的爽感,值得所有折腾。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。