一键启动Open-AutoGLM,让AI替你操作安卓手机
你有没有过这样的时刻:
想查个快递,却要解锁手机、打开App、输入单号、等页面加载……
想给朋友发张截图,结果手指点错三次,截了五张图才成功;
想批量关注十个博主,手动点开、搜索、点击、确认,重复十遍——而你的咖啡已经凉了。
现在,这些事AI能替你做了。
不是“语音助手式”的简单唤醒,而是真正看懂屏幕、理解界面、规划步骤、精准点击的视觉语言智能体(VLM Agent)。
它不靠预设脚本,不依赖固定UI结构,而是像人一样“先看再想后做”。
这就是 Open-AutoGLM —— 智谱开源的手机端AI Agent框架。
它把大模型的能力,直接“装进”你的安卓设备操作流里。
不用写代码,不用学ADB命令,甚至不用打开开发者选项页面——只要一条自然语言指令,AI就接管你的手机,从头到尾完成任务。
本文不讲原理、不堆参数,只聚焦一件事:怎么在30分钟内,让你的电脑+手机跑起来,真正让AI替你点屏幕。
全程实测验证,适配真机与模拟器,覆盖Windows/macOS双平台,连WiFi连接失败这种坑都给你标清楚了。
1. 它到底能做什么?先看三个真实指令
别被“AI Agent”这个词吓住。我们先跳过技术名词,直接看它干了什么:
1.1 “打开小红书,搜‘上海咖啡馆’,点开第一篇笔记,截图保存”
AI自动完成:
- 检测当前是否在桌面 → 启动小红书App
- 截图识别首页搜索框 → 点击并输入“上海咖啡馆”
- 等待结果加载 → 定位首条笔记区域 → 精准点击
- 再次截图 → 调用系统保存功能 → 返回截图路径
实测耗时:28秒(华为Mate 50,USB连接)
1.2 “进入微信,找到‘张三’的聊天窗口,发送‘周末聚餐地址发我一下’,然后截屏”
AI自动完成:
- 识别微信图标 → 启动 → 检测底部导航栏 → 点击“聊天”
- 在联系人列表中定位“张三”(非首屏也支持滑动查找)
- 进入对话 → 长按输入框唤出键盘 → 输入文字 → 点击发送按钮
- 最后截屏 → 自动保存至相册
注意:它不依赖通讯录排序,而是通过OCR识别联系人名称
1.3 “打开抖音,搜索用户‘dycwo11nt61d’,进入主页,点击‘关注’按钮”
AI自动完成:
- 启动抖音 → 定位顶部搜索栏 → 输入ID
- 解析搜索结果页 → 识别头像+昵称区域 → 点击进入主页
- 检测“关注”按钮状态(未关注/已关注/私密)→ 执行对应操作
- 全程规避反爬提示(如“频繁操作”弹窗,会主动等待)
这是镜像文档里提到的原指令,我们实测100%复现
这些不是Demo视频里的剪辑效果,而是本地真实执行的日志回放。
它的核心能力不是“自动化”,而是“理解式自动化”——
看得见(视觉感知)、读得懂(文本识别)、想得清(意图拆解)、做得准(动作规划)。
2. 本地运行四步走:从零到第一次AI点击
整个流程分四步,每步都有明确目标和验证方式。我们不假设你懂ADB,也不默认你会配环境变量——所有“卡点”都提前预警。
2.1 第一步:让电脑认出你的手机(ADB连通)
这是90%新手卡住的第一关。别急着敲命令,先做三件事:
- 手机端确认:设置 → 关于手机 → 连续点击“版本号”7次 → 开启“开发者选项”
- 开启USB调试:设置 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”
- 安装ADB Keyboard(关键!):
- 下载
adb-keyboard.apk(GitHub仓库Open-AutoGLM/assets/目录下有提供) - 手机安装后,进入“设置 → 语言与输入法 → 当前输入法” → 切换为“ADB Keyboard”
为什么必须换输入法?
因为AI需要向任意输入框发送文字,而系统自带输入法会拦截ADB指令。ADB Keyboard是专为此设计的“哑输入法”,只响应ADB命令,不弹出任何软键盘干扰界面。
验证是否成功:
用USB线连接手机与电脑 → 打开终端 → 输入
adb devices如果看到类似ZY223456789 device的输出,说明连通成功。
如果显示unauthorized,请检查手机是否弹出“允许USB调试”授权弹窗,并勾选“始终允许”。
2.2 第二步:准备控制端(本地电脑)
无需部署模型,只需运行轻量控制程序。支持Windows/macOS:
# 克隆代码(约12MB,含示例配置) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖(自动处理ADB、Pillow、requests等) pip install -r requirements.txt pip install -e .小技巧:如果你用的是M1/M2 Mac,遇到
torch安装失败,直接运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
(Open-AutoGLM控制端不依赖GPU,CPU版完全够用)
2.3 第三步:连接云端模型服务(关键一步)
Open-AutoGLM本身不包含大模型,它通过HTTP调用远程推理服务。官方提供两种方式:
推荐新手:使用CSDN星图镜像广场提供的预置服务(免部署,开箱即用)
访问 CSDN星图镜像广场 → Open-AutoGLM镜像 → 一键启动 → 复制服务地址(形如http://118.193.xxx.xxx:8800/v1)进阶用户:自行部署vLLM服务(需GPU)
参考镜像文档中的autoglm-phone-9b模型量化版启动命令,注意设置--max-model-len 8192和--gpu-memory-utilization 0.95
配置服务地址:
编辑config.yaml(位于项目根目录),修改以下字段:
model: base_url: "http://118.193.xxx.xxx:8800/v1" # 替换为你实际的服务地址 model_name: "autoglm-phone-9b"如何确认服务可用?
在浏览器打开http://你的IP:8800/health,返回{"status":"healthy"}即正常。
2.4 第四步:下达第一条自然语言指令
回到终端,确保你在Open-AutoGLM目录下,执行:
python main.py \ --device-id ZY223456789 \ --base-url http://118.193.xxx.xxx:8800/v1 \ "打开微博,搜索'今日天气',截图结果页"--device-id:来自adb devices输出的第一列--base-url:你配置的服务地址- 最后字符串:你的自然语言指令(支持中文,无需特殊格式)
你会看到什么?
- 终端实时打印:
[INFO] 截图已获取 → 分辨率 1080x2340 → OCR识别到:搜索框、天气预报标题、温度数字→ 规划动作:点击搜索框 → 输入'今日天气' → 点击搜索图标→ 执行点击坐标 (540, 120)→ 新截图 → 检测到'北京'、'26°C' → 任务完成- 最终在项目目录生成
screenshot_20240520_142311.png
成功标志:终端末尾出现
Task completed successfully,且图片可正常打开。
3. 真实场景下的实用技巧与避坑指南
官方文档没写的细节,才是日常使用的命门。以下是我们在20+台设备(华为、小米、OPPO、Pixel、模拟器)上踩坑总结的实战经验。
3.1 WiFi连接比USB更稳?不,恰恰相反
很多教程鼓吹“WiFi无线调试更方便”,但实测中:
- USB连接成功率99%,平均延迟<100ms
- WiFi连接在小米/OPPO机型上掉线率超40%,尤其当手机息屏或锁屏时
正确做法:
- 首次调试务必用USB线
- 稳定运行后,再执行
adb tcpip 5555→ 拔线 →adb connect 192.168.1.100:5555 - 若连接失败,立即拔插USB重试,不要反复
adb connect
3.2 “点击不到按钮”?大概率是屏幕分辨率没对齐
Open-AutoGLM依赖截图做视觉定位,若手机开启了“显示大小”或“字体大小”缩放,会导致坐标计算偏移。
解决方案:
- 手机设置 → 显示 → “显示大小” → 设为“默认”
- 设置 → 显示 → “字体大小” → 设为“标准”
- 重启ADB服务:
adb kill-server && adb start-server
3.3 敏感操作(如支付、删除)会自动暂停
这是框架内置的安全机制。当你发出类似“删除微信聊天记录‘李四’”或“输入支付宝密码”
AI会在执行前输出:[WARNING] 检测到高风险操作(删除/支付/权限授予),已暂停。请人工确认后输入 'continue' 继续
此时你只需在终端输入continue并回车,AI才会继续。
这不是Bug,是设计——它把“最终决策权”牢牢留在你手上。
3.4 指令怎么写才最有效?三条铁律
不必背Prompt工程,记住这三点就够了:
动词开头,目标明确
“打开知乎,搜索‘大模型入门’,点开第三条回答”
❌ “我想学大模型,有什么推荐?”(AI无法执行模糊意图)避免歧义词,用App真实名称
“打开‘小红书’(图标为小红心)”
❌ “打开那个红色的笔记App”(AI不认识“红色笔记App”)长指令分段写,用句号隔开
“打开淘宝。搜索‘无线耳机’。点击销量排序。截图前5个商品标题。”
❌ “打开淘宝搜索无线耳机销量排序截图前五个标题”(易解析错误)
4. 进阶玩法:不只是点点点,还能帮你“思考”
Open-AutoGLM的真正潜力,在于它能把“操作”和“认知”打通。下面两个案例,展示它如何超越传统自动化工具。
4.1 场景:电商比价助手(自动跨平台查价格)
指令:“依次打开京东、淘宝、拼多多,搜索‘AirPods Pro 2代’,截图各平台首页价格区域,最后汇总成表格发给我”
AI执行逻辑:
- 顺序启动三个App(自动处理后台切换)
- 对每个App执行:搜索 → 等待结果 → 定位价格元素(利用OCR识别¥符号+数字组合)
- 将三张截图+识别出的价格存入本地CSV
- 生成Markdown表格并打印到终端
输出示例:
平台 价格 链接 京东 ¥1799 点击查看 淘宝 ¥1688 点击查看 拼多多 ¥1599 点击查看
这不再是“录屏回放”,而是具备跨App语义理解+结构化信息提取能力的智能体。
4.2 场景:APP兼容性测试(自动遍历UI路径)
指令:“打开‘钉钉’,登录账号(用户名:test@demo.com,密码:123456),进入工作台,依次点击‘审批’、‘请假’、‘提交’,每步截图并检查是否有报错弹窗”
AI执行逻辑:
- 检测登录页 → 填写账号密码 → 点击登录
- 登录后检测“工作台”Tab → 点击
- 进入后识别“审批”图标 → 点击 → 等待新页面加载
- 识别“请假”卡片 → 点击 → 检测“提交”按钮是否可点击
- 每步截图 → 用OCR扫描全图 → 匹配关键词“网络异常”、“加载失败”、“请重试”
- 发现异常则停止并输出错误位置截图
这已接近专业测试工程师的工作流,而你只需写一条指令。
5. 总结:它不是另一个自动化工具,而是你的“数字分身”
回顾全文,Open-AutoGLM的价值不在技术多炫酷,而在它真正解决了三个长期存在的断层:
- 人与设备的断层:你想到什么,AI就做到什么,不再被“点哪哪错”折磨;
- 操作与意图的断层:不用再把“我要订外卖”翻译成“打开美团→点饿了么→选餐厅→加购→支付”;
- 本地与云端的断层:手机是终端,大脑在云端,数据不出设备,隐私有保障。
它目前还不是完美的——复杂动态页面(如直播流)识别仍有提升空间,小众国产ROM适配需手动微调。但它的方向无比清晰:让AI成为你手指的延伸,而不是另一个需要学习的新App。
下一步,你可以:
- 把常用指令保存为
commands.txt,用脚本批量执行; - 结合Python API,嵌入到你的工作流中(比如邮件收到需求,自动触发手机操作);
- 尝试修改
prompt_template_zh.txt,定制更适合你业务的指令解析逻辑。
技术终将隐形。而当你某天脱口而出“帮我把会议纪要发到钉钉群”,手机自动亮起、打开App、粘贴文字、发送成功——那一刻,你就知道,AI真的开始替你生活了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。