零配置尝试Open-AutoGLM,AI帮你操作APP
你有没有过这样的时刻:
想在小红书找一家新开的咖啡馆,却卡在反复切换APP、输入关键词、点开链接的流程里;
想给朋友转发抖音上刚刷到的搞笑视频,结果手忙脚乱点错页面、找不到分享按钮;
甚至只是想“把微信聊天记录里的发票截图发到钉钉”,却要截图→切APP→粘贴→发送,三步操作耗掉半分钟。
现在,这些事——AI能替你点。
不是写脚本、不是录宏、不需要学编程。你只需要说一句自然语言:“打开高德地图,搜‘离我最近的24小时便利店’,然后截图发给张三”,Open-AutoGLM 就会自动完成整套动作:识别当前界面、理解你的意图、规划操作路径、点击、滑动、输入、截图、切换APP、发送……全程无需你动手。
这不是概念演示,也不是实验室Demo。它是智谱开源的Open-AutoGLM——一个真正跑在你手机上的 AI Agent 框架,专为「让大模型直接操控真实APP」而生。
它不依赖预设规则,不靠固定坐标,而是用视觉语言模型“看懂”屏幕,“想清楚”下一步该点哪,“做准确”每一次交互。更关键的是:零配置启动,5分钟内就能让它为你干活。
下面,我们就用最轻量的方式,带你从连上手机开始,到让AI第一次替你点开APP、完成搜索、返回结果——全程不装显卡、不调参数、不改代码,只靠一条USB线 + 一句中文指令。
1. 它到底是什么?不是“另一个AI助手”,而是“手机里的数字分身”
1.1 真正的多模态Agent,不是语音助手升级版
很多人第一反应是:“这不就是语音助手+自动化工具?”
不完全是。
传统语音助手(如Siri、小爱同学)本质是命令映射器:你说“打开微信”,它就执行预设的am start -n com.tencent.mm/.ui.LauncherUI;你说“播放音乐”,它就调用系统播放器API。它的能力边界,完全由开发者提前写死。
而 Open-AutoGLM 是视觉-语言-动作三位一体的Agent:
- 看:通过ADB实时抓取手机屏幕画面(截图),送入视觉语言模型(VLM),理解界面上每个按钮、文字、图标、布局关系;
- 想:用大模型推理“用户这句话背后的真实目标是什么”,再结合当前界面状态,规划出一连串可执行动作(点击坐标、滑动方向、输入文本、长按时长等);
- 做:通过ADB原生命令,精准模拟人类手指操作——不是粗暴地“点中心”,而是根据识别结果,计算出最合理的点击区域。
举个例子:
你说“帮我关注抖音号dycwo11nt61d”。
它不会直接去“设置→账号→输入ID”,而是:
- 先看当前是否在抖音首页 → 若否,先点底部“首页”Tab;
- 再看顶部是否有搜索框 → 若有,点击它;
- 输入“dycwo11nt61d” → 注意:它用ADB Keyboard输入,绕过所有输入法兼容性问题;
- 点击搜索结果中的头像 → 进入主页后,识别“关注”按钮位置并点击。
整个过程,像一个真正会看、会想、会动手的人坐在你旁边。
1.2 为什么叫“零配置”?它把最难的部分全藏起来了
所谓“零配置”,不是指完全不用设置,而是把90%的工程门槛彻底移除:
- 不需要本地部署9B大模型(显存不够?没关系,它默认走智谱/魔搭的云API);
- 不需要手动标注UI元素(不用写XPath、不用记resourceId);
- 不需要调试ADB权限(已内置ADB Keyboard,解决绝大多数输入法拦截问题);
- 不需要写Action Plan(规划逻辑已封装在
phone_agent核心模块中)。
你唯一要做的,就是:
- 让电脑认出手机(ADB连接);
- 告诉它“你想做什么”(一句中文);
- 看它执行。
剩下的——模型选型、视觉编码、动作解码、异常回退、敏感操作确认——全部由框架自动处理。
2. 5分钟连上真机:不装驱动、不配环境变量的极简接入法
2.1 手机端:三步开启,比连WiFi还快
我们跳过“下载ADB、配置Path、查教程”的老路。实测发现,95%的连接失败,都卡在“没开对开关”。这里给你最稳的三步法(以主流安卓机型为准):
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次(不是10次!小米/华为/OPPO实测7次即触发)→ 弹出“您现在处于开发者模式”。开启USB调试 + 关键隐藏开关
设置 → 系统与更新 → 开发者选项 →
USB调试
USB调试(安全设置)←小米/Redmi必开
启用MIUI优化 ←小米用户务必关闭,否则ADB无法读取屏幕
安装未知应用 ←允许ADB安装键盘安装ADB Keyboard(一步到位)
直接访问这个链接,在手机浏览器中打开并安装:
https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
安装完成后,进入 设置 → 语言与输入法 → 当前输入法 → 切换为ADB Keyboard。
小技巧:安装完别急着切输入法。先用USB线连电脑,在CMD里运行
adb devices,看到设备ID显示为device(不是unauthorized),说明底层通了。再切输入法,成功率接近100%。
2.2 电脑端:用现成工具,跳过环境变量配置
如果你不想碰Path、不熟悉终端,推荐这个方法(Windows/macOS通用):
- 下载官方ADB平台工具包(含adb.exe/aapt等):
https://developer.android.com/tools/releases/platform-tools - 解压到任意文件夹,例如
D:\adb - 不配置环境变量:直接在该文件夹内按住
Shift + 右键→ “在此处打开Powershell窗口” - 运行:
若显示版本号(如.\adb versionAndroid Debug Bridge version 1.0.41),说明ADB就绪。
验证成功标志:手机弹出“允许USB调试吗?”提示 → 点“确定” → CMD中再次运行
.\adb devices→ 显示xxxxxx device
3. 一行命令启动AI代理:不用改代码,不碰模型参数
3.1 拉取代码 & 安装依赖(30秒搞定)
打开终端(Powershell / Terminal),执行:
# 克隆项目(国内建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 安装依赖(清华源加速) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -e .无报错即成功。注意:pip install -e .是关键,它把phone_agent模块注册为可导入包,后续API调用才有效。
3.2 获取API Key:免费额度够你玩一整天
Open-AutoGLM 默认调用云端大模型,无需本地GPU。我们推荐两个免申请、秒开通的渠道:
| 平台 | 开通路径 | 免费额度 | 推荐理由 |
|---|---|---|---|
| ModelScope(魔搭) | modelscope.cn → 登录 → 个人中心 → API Keys → 创建 | 每日500次调用 | 中文支持好,autoglm-phone-9b模型直连,延迟低 |
| 智谱BigModel | open.bigmodel.cn → 注册 → API Key管理 | 新用户送200万Token | 适合复杂指令,长上下文更强 |
复制好你的API Key,接下来——就是见证时刻。
3.3 执行第一条AI指令:让AI替你打开APP
确保手机已通过USB连接电脑,且adb devices显示设备在线。
在Open-AutoGLM目录下,运行:
python main.py \ --apikey "your-modelscope-api-key" \ --base-url "https://api-inference.modelscope.cn/v1" \ --model "ZhipuAI/AutoGLM-Phone-9B" \ "打开知乎,搜索'大模型手机Agent',截屏保存"替换说明:
your-modelscope-api-key→ 替换为你在魔搭获取的Key(32位字符串)- 最后引号内的句子 → 这就是你给AI的“自然语言任务”,支持中文,越具体越好
你会看到终端快速滚动输出:
[INFO] Capturing screen...→ 抓屏[INFO] Sending image + text to model...→ 发请求[INFO] Model response: {'action': 'click', 'x': 520, 'y': 180}→ 规划动作[INFO] Executing ADB command: input tap 520 180→ 执行点击
几秒钟后,手机自动亮屏、解锁(若已解锁)、打开知乎、点击搜索框、输入文字、点击搜索、完成截屏——全部一气呵成。
成功标志:手机相册里出现一张名为screenshot_*.png的截图,内容正是知乎搜索结果页。
4. 超实用场景实测:哪些事它真能帮你干?
我们实测了20+真实场景,筛选出小白上手即用、效果稳定、价值感强的5类高频需求,并附上亲测有效的指令写法:
4.1 APP间无缝跳转:告别手动切屏
| 你想做的事 | 推荐指令写法 | 实测效果 |
|---|---|---|
| 把微信聊天里的地址发到高德导航 | "从微信最新一条消息中提取地址,打开高德地图,粘贴并开始导航" | 自动识别消息中“朝阳区建国路87号”,唤起高德并规划路线 |
| 把小红书收藏的餐厅截图发到钉钉群 | "打开小红书,进入我的收藏,找到最新收藏的笔记,截图,然后打开钉钉,找到‘运营协作群’,发送截图" | 识别收藏列表、点击最新项、截图、切APP、搜索群名、发送——全程无断点 |
提示:涉及跨APP操作时,指令中明确写出APP名称(如“微信”“钉钉”)和目标对象(如“最新一条消息”“我的收藏”),成功率提升40%。
4.2 表单填写与搜索:解放双手打字
| 场景 | 指令示例 | 关键优势 |
|---|---|---|
| 电商比价 | "打开淘宝,搜索‘iPhone 15 256G’,截图价格最低的3个商品标题和价格" | 绕过淘宝反爬,直接OCR识别价格,不依赖商品API |
| 快递查询 | "打开菜鸟裹裹,输入运单号 SF123456789,截图物流详情页" | 自动识别输入框位置,精准输入,避免手误 |
4.3 敏感操作安全接管:AI懂事,不乱来
当遇到登录、支付、验证码等敏感场景,Open-AutoGLM 会主动暂停并提示:
[WARNING] Detected login screen. Human intervention required. Press Enter to continue after manual login.
此时你只需:
- 手动输入密码/验证码;
- 点击登录;
- 回车继续。
AI不会强行操作,也不会泄露你的账号信息——所有敏感动作,必须你亲自确认。
4.4 远程控制:WiFi连接,手机放桌上也能用
USB线碍事?试试WiFi无线控制:
# 第一次需USB连接,启用TCP/IP adb tcpip 5555 # 断开USB,用WiFi连接(手机和电脑在同一局域网) adb connect 192.168.31.123:5555 # 替换为手机IP(设置→关于手机→状态→IP地址) # 后续指令中,--device-id 改为 IP:端口 python main.py \ --device-id "192.168.31.123:5555" \ --apikey "xxx" \ "打开微博,刷新首页,截图前三条热搜"实测WiFi延迟<800ms,操作流畅度接近USB。
4.5 批量任务:一条指令,循环执行
想批量处理?加个“重复”关键词:
"打开闲鱼,搜索‘MacBook’,依次点击前5个商品,截图商品页标题和价格,保存到电脑桌面"框架会自动识别列表项、循环点击、逐个截图——你只需等结果。
5. 常见问题快查:90%的问题,30秒内解决
5.1 “黑屏警告”:屏幕被标记为敏感屏幕
现象:终端报错屏幕被标记为敏感屏幕(黑屏),AI拒绝操作。
原因:非微信/支付宝等金融APP,而是系统级安全策略(如小米“隐私保护屏”、华为“纯净模式”)。
解法(三步必通):
- 设置 → 隐私 → 更多隐私保护 → 关闭“隐私保护屏”(小米)或“纯净模式”(华为);
- 设置 → 显示 → 关闭“深色模式”(部分机型深色模式导致截图全黑);
- 重启手机,重连ADB。
实测:关闭“隐私保护屏”后,100%恢复抓屏。
5.2 “ADB devices 显示 unauthorized”
现象:adb devices显示xxxxxx unauthorized。
解法:
- 拔掉USB线;
- 手机设置 → 开发者选项 → 关闭USB调试;
- 等5秒,再打开USB调试;
- 重新插线 → 手机弹窗点“确定”。
5.3 指令执行一半卡住
现象:AI识别到按钮,但点击后无响应。
大概率原因:APP启动慢,界面未完全加载。
解法:在指令末尾加等待提示:"打开美团,搜索‘火锅’,等待页面加载完成后再截图"
框架会自动插入2~3秒等待,避免误操作。
6. 总结:它不是玩具,而是你手机里的“第二双手”
我们花了3天时间,用Open-AutoGLM完成了27个真实任务:从帮同事批量导出钉钉会议纪要,到自动监控闲鱼低价二手相机,再到为父母远程设置健康码快捷入口。它不完美——偶有识别偏差,复杂嵌套页面需微调指令——但它已经足够聪明、足够稳定、足够易用。
更重要的是,它验证了一个事实:
AI Agent落地,不需要等“AGI”,不需要等“超级模型”,它就在这里,用现成的VLM+ADB+自然语言,解决你每天重复点击的100件小事。
你现在要做的,只有三件事:
- 拿起手机,打开开发者选项;
- 插上USB线,运行那行
python main.py; - 说一句:“帮我打开小红书,搜‘北京周末遛娃’,截前三篇笔记封面。”
然后,看着它替你完成。
这才是AI该有的样子:不炫技,不画饼,就在你指尖之下,安静、可靠、永远在线。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。