亲测Open-AutoGLM:说句话就自动搜美食、关注博主,太省心了
你有没有过这样的时刻——
想在小红书找一家新开的川菜馆,结果点开App、输关键词、翻页、比价格、看评论……一套操作下来,手酸了,胃口也没了?
想关注一个抖音博主,得先打开App、搜索ID、点进主页、再点“关注”……明明只是一句话的事,却要动十几次手指?
现在,这些事真的只要一句话就能搞定。
我上周实测了智谱开源的Open-AutoGLM——一个跑在手机上的AI智能助理框架。它不靠预设脚本,不靠固定流程,而是真正“看懂”你的屏幕、“听懂”你的指令,再像真人一样一步步操作手机。
我说:“打开小红书搜‘藏在巷子里的冷吃兔’”,3秒后,App已启动,搜索框已输入,结果页正在加载;
我说:“打开抖音,搜dycwo11nt61d,点关注”,它真就点进了主页,悬停在关注按钮上,等我确认后一键完成。
这不是概念演示,是我在一台小米13(Android 14)上跑通的真实体验。
没有写一行自动化脚本,没配任何UI控件ID,全程用大白话指挥。
这篇文章,我就带你从零开始,把这套“会听话的手机助手”装进你自己的设备里——不讲原理黑话,不堆参数配置,只说怎么连、怎么跑、怎么用、踩了哪些坑、怎么绕过去。
1. 它到底能干啥?不是语音助手,是“手机分身”
先划重点:Open-AutoGLM 不是 Siri 或小爱同学那种语音转文字+调API的助手。
它是一个视觉语言驱动的手机端AI Agent,核心能力有三层:
- 看得见:通过ADB实时截取手机屏幕,用多模态模型理解当前界面(比如识别出“搜索框”“关注按钮”“商品卡片”)
- 想得清:把你的自然语言指令(如“帮我订一杯瑞幸的生椰拿铁”)拆解成可执行动作序列(打开瑞幸→点外卖→选门店→加购物车→结算)
- 动得准:通过ADB模拟点击、滑动、输入,真实操控手机,就像你在亲手操作
它解决的不是“查天气”这种单点问题,而是跨App、多步骤、带状态判断的连续任务。比如:
- “打开美团,搜‘24小时营业的修眉店’,按距离排序,选第一家,截图发微信给张三”
- “打开微博,找到@数码闲聊站 的最新一条带图微博,长按保存图片到相册”
- “打开淘宝,搜‘可折叠蓝牙键盘’,进入销量第一的商品页,把价格和月销数抄下来发到备忘录”
这些操作,传统自动化工具(如Tasker)需要手动录制每一步坐标或XPath;而Open-AutoGLM只需要你说话,它自己看、自己想、自己做。
关键区别:它不依赖App内部结构,不关心按钮ID是什么,只认“屏幕上哪里有字、哪里有图标、哪里能点”。所以换新版本App也不用重配——只要界面元素还在,它就能继续工作。
2. 本地电脑+真机连接:四步搞定硬件链路
Open-AutoGLM 的控制端运行在你的电脑上,AI模型服务可以是云端API(推荐新手),也可以是本地GPU部署。我们先走最轻量的路径:用电脑当遥控器,手机当执行终端,模型调用智谱/魔搭的在线服务。
整个连接链路只有四环:电脑 → ADB → 手机 → 云端模型。下面每一步都附避坑提示。
2.1 安装ADB:别被“环境变量”吓住
ADB(Android Debug Bridge)是安卓设备和电脑通信的桥梁。安装它,比装微信还简单:
- Windows用户:去 Android SDK Platform-Tools 下载zip包,解压到
D:\adb这种无中文、无空格的路径 - Mac用户:终端执行
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH=$PATH:$(pwd)/platform-tools
验证是否成功:打开命令行,输入adb version,看到类似Android Debug Bridge version 34.0.5就算通关。
常见卡点:
- 报错
command not found→ 检查环境变量是否生效(重启命令行窗口) - 报错
adb is not recognized→ Windows用户请确认“系统属性→高级→环境变量→系统变量→Path”里添加的是D:\adb(不是D:\adb\后面那个反斜杠)
2.2 手机端设置:三步打开“被操控权”
手机必须主动授权,电脑才能接管。这三步缺一不可:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(小米/华为需点10次),弹出“您现在处于开发者模式”即成功
- 开启USB调试:设置 → 更多设置 → 开发者选项 → 打开“USB调试”
小米/OPPO/ vivo用户额外注意:往下拉,务必打开“USB调试(安全设置)”和“USB安装”,否则后续无法输入文字 - 安装ADB Keyboard:这是关键!普通输入法无法被ADB调用。
- 下载 ADBKeyboard.apk
- 用数据线连手机,电脑拖入APK文件,手机自动安装(若提示“禁止安装未知来源”,去“设置→安全→允许未知来源安装”)
- 安装完,去“设置→语言与输入法→当前输入法”,切换为ADB Keyboard
验证:手机连电脑,命令行输入adb devices,返回类似8A9X021234567890 device即表示手机已在线。
2.3 克隆代码 & 装依赖:5分钟跑起来
一切就绪,现在把Open-AutoGLM本体拉到本地:
# 1. 克隆仓库(推荐放在英文路径下,如 D:\projects) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装Python依赖(建议用清华源加速) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .若报错pydantic版本冲突:执行pip install "pydantic<2"再重试
若卡在torch安装:直接访问 PyTorch官网,复制对应系统的安装命令(如CUDA 11.8版)替换掉requirements里的torch行
2.4 连接方式选择:USB稳,WiFi灵
- USB直连(推荐首次尝试):数据线插好,
adb devices看到设备ID,直接用 - WiFi无线连(适合长期使用):
# 先用USB连一次,开启TCP/IP模式 adb tcpip 5555 # 拔掉USB,连同一WiFi,查手机IP(设置→关于手机→状态→IP地址) adb connect 192.168.1.102:5555 # 替换成你手机的真实IP
验证无线连接:adb devices应显示192.168.1.102:5555 device
3. 调用云端模型:不用GPU,也能跑AI Agent
Open-AutoGLM本身不包含大模型,它是个“大脑调度器”,真正干活的是你指定的视觉语言模型。对普通用户,直接调用智谱或魔搭的在线API是最省心的选择——无需显卡,不用下载20GB模型,注册即用。
3.1 申请API Key:两分钟搞定
- 智谱BigModel:访问 https://open.bigmodel.cn,注册账号 → 进入“API密钥” → 创建新密钥 → 复制保存
- 魔搭ModelScope:访问 https://modelscope.cn,登录 → 右上角头像 → “API Tokens” → 新建Token → 复制
两个平台都提供免费额度(智谱首月送200万tokens,魔搭新用户送5000次调用),日常测试完全够用。
3.2 一句话启动Agent:指令格式记住这三点
运行命令本质就一句:
python main.py [模型参数] [你的自然语言指令]关键参数填法(以智谱为例):
python main.py \ --device-id 8A9X021234567890 \ # adb devices看到的ID --base-url https://open.bigmodel.cn/api/paas/v4 \ # 智谱API地址 --model autoglm-phone \ # 模型名(智谱固定用这个) --apikey your_very_long_api_key_here \ # 你刚复制的密钥 "打开小红书搜'藏在巷子里的冷吃兔'"注意三个易错点:
--device-id后面不要加空格或引号,直接跟设备ID--apikey和密钥之间必须有空格,密钥本身不要加引号- 最后的指令字符串必须用英文双引号包裹,且引号内用单引号包关键词(如
'冷吃兔'),避免shell解析错误
3.3 实测效果:它真能“看图说话”吗?
我用上面那条指令跑了三次,记录真实过程:
| 步骤 | 屏幕状态 | AI动作 | 耗时 |
|---|---|---|---|
| 1 | 手机桌面 | 启动小红书App | 1.2s |
| 2 | 小红书首页(底部导航栏可见) | 点击顶部搜索框 | 0.8s |
| 3 | 搜索框获得焦点,键盘弹出 | 用ADB Keyboard输入“藏在巷子里的冷吃兔” | 2.1s |
| 4 | 输入完成,键盘未收起 | 点击右上角“搜索”按钮 | 0.5s |
| 5 | 搜索结果页加载中 | 等待页面稳定(约1.5s) | — |
| 6 | 结果页完全显示 | 截图并返回电脑终端 | 0.3s |
全程无卡顿,输入文字准确(没把“兔”打成“突”),搜索按钮位置识别正确。
更惊喜的是,当我故意把手机横屏——它依然能准确定位搜索框(因为模型理解的是“顶部带放大镜图标的输入区域”,不是固定坐标)。
4. 实用技巧与避坑指南:少走三天弯路
跑通只是开始,用得顺才是关键。这些是我踩坑后总结的硬核经验:
4.1 敏感屏幕报错?不是bug,是安全保护
你可能会遇到这个报错:
“屏幕被标记为敏感屏幕(黑屏),根据安全规则,我无法在敏感屏幕上执行任何操作”
这不是模型故障,而是安卓系统对支付类、银行类、密码输入类界面的强制保护。Open-AutoGLM检测到屏幕内容含敏感元素(如“请输入支付密码”字样、锁形图标),会主动暂停操作。
解决方案:
- 场景1:你正操作淘宝付款页→ 在指令末尾加一句“如果遇到支付页面,请停止并提醒我”,AI会主动跳出
- 场景2:误判(如某App启动页有锁图标)→ 临时关闭该App的“隐私保护”或“安全键盘”,或换用其他App完成任务
4.2 指令怎么写才好使?三句口诀
AI不是人,但比人更需要清晰指令。记住:
- 说全动作链:❌ “搜火锅” → “打开美团,搜‘附近2公里的火锅店’,按人气排序”
- 用具体名词:❌ “那个博主” → “抖音号为dycwo11nt61d的博主”
- 加明确终点:❌ “看看小红书” → “打开小红书,搜‘露营装备清单’,截图前三条笔记”
4.3 远程调试:在家也能管办公室手机
如果你有台一直开机的办公电脑,可以把它的ADB服务暴露到内网:
# 在办公电脑上执行(确保防火墙放行5555端口) adb tcpip 5555 # 手机连公司WiFi,获取IP后,在家里的电脑运行: adb connect 192.168.10.55:5555 # 办公电脑IP从此,下班路上想查个报表,发条指令,办公室手机自动打开钉钉→点开日报→截图发你微信。
5. 它能做什么?10个真实可用的省心场景
别再想“AI能干什么”,直接看它此刻就能帮你做的事。以下全是我在小米13上实测通过的指令:
- “打开高德地图,搜‘最近的苹果授权店’,打电话给第一家”
- “打开知乎,搜‘如何自学Python’,把前三个回答的标题和点赞数抄到备忘录”
- “打开京东,搜‘机械键盘 Cherry MX Red’,进入销量第一的商品页,截图价格和参数表”
- “打开微信,找到‘王老板’的聊天窗口,把昨天他发的报价单图片转发给‘采购李姐’”
- “打开B站,搜‘AutoGLM教程’,播放第一个视频,倍速调到1.5x,播放30秒后暂停”
- “打开小红书,搜‘油痘肌护肤流程’,收藏前两条笔记,截图收藏成功提示”
- “打开微博,找到@人民日报 的最新一条带图微博,长按保存图片到相册”
- “打开闲鱼,搜‘二手MacBook Pro’,按价格从低到高排序,截图最低价商品页”
- “打开Keep,搜‘10分钟肩颈放松’,开始播放第一个跟练视频”
- “打开淘宝,搜‘可折叠蓝牙键盘’,把销量前三的商品名称、价格、月销数整理成表格,发到钉钉群‘采购组’”
你会发现,所有指令都遵循一个模式:App名 + 动作 + 目标对象 + (可选)结果要求。越具体,成功率越高。
6. 总结:它不是未来科技,是今天就能装进手机的生产力外挂
Open-AutoGLM 最打动我的地方,不是它有多“智能”,而是它有多“实在”:
- 不需要你学Python,不需要你懂ADB原理,甚至不需要你记住命令参数——第一次运行,照着本文复制粘贴就能动起来;
- 它不取代你的思考,而是把你从重复操作中解放出来。你专注“要什么”,它负责“怎么做”;
- 它跑在你自己的设备上,数据不上传云端(截图只在本地处理,文字指令经加密API传输),隐私可控。
当然,它还有成长空间:复杂多层嵌套页面(如电商App的“领券中心→店铺券→限时抢”)偶尔会迷路;部分小众App的图标识别率待提升。但这些问题,随着模型迭代和社区反馈,正在快速收敛。
如果你厌倦了每天在手机上点点点,如果你常为“找一个信息要开5个App”而烦躁,那么,今天花30分钟装好Open-AutoGLM,明天你就会发现——原来动嘴,真的比动手快。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。