一键启动Open-AutoGLM,手机自动化原来这么简单
你有没有想过,不用动手点屏幕,只说一句“帮我订一杯瑞幸咖啡”,手机就自动打开APP、选门店、加小料、下单付款?这不是科幻电影,而是Open-AutoGLM正在做的事——它把你的安卓手机,变成一个听得懂人话、看得清界面、自己会操作的AI助理。
更关键的是:它开源了,免费,不依赖特定硬件,也不需要你买新手机。只要有一台Android 7.0以上的旧手机、一台能连WiFi的电脑,再花15分钟配置,你就能亲手启动这个“手机里的AI大脑”。
本文不是概念科普,也不是远景展望,而是一份真正能跑通的实操指南。我会带你绕过所有文档里没写的坑,从零开始完成设备连接、环境配置、指令下发全流程,并告诉你哪些任务现在就能用、哪些场景要特别注意。全程不用写一行模型代码,所有操作都在命令行里完成。
1. 它到底是什么?别被“Agent”吓住
1.1 不是APP,也不是插件,而是一个“视觉+语言+动作”的闭环系统
Open-AutoGLM(准确说是其中的Phone Agent模块)不是一个装在手机里的应用,而是一套分体式智能代理框架:
- 眼睛:通过ADB实时截取手机屏幕画面,用OCR+多模态理解技术“看懂”当前界面上的文字、按钮、图标、布局
- 大脑:调用云端或本地部署的9B参数大模型(autoglm-phone-9b),将你的自然语言指令(比如“找到微信里张三发的上一条图片”)解析成可执行的操作意图
- 手:通过ADB发送触摸坐标、滑动轨迹、按键指令,真实模拟人类手指操作——点击、长按、输入文字、返回、切换应用,全部自动完成
它不修改APP源码,不越狱,不root,不依赖任何厂商SDK。只要系统允许ADB调试,它就能工作。
1.2 和豆包手机、Siri、Tasker有啥区别?
| 对比项 | Open-AutoGLM | 豆包手机内置Agent | Siri / 小爱同学 | Tasker |
|---|---|---|---|---|
| 控制粒度 | 精确到像素级点击、滑动、文本输入 | 同样精细,但封闭在定制系统内 | 只能调用系统级API(如打电话、设闹钟),无法操作第三方APP界面 | 需手动配置触发条件和动作,无理解能力,纯规则驱动 |
| 理解能力 | 多模态理解(图文+语言),能看图识字、识布局、识上下文 | 同样具备,但未开源细节 | 仅语音转文字+意图识别,无法感知屏幕内容 | 无语言理解,全靠用户预设逻辑 |
| 部署方式 | 开源,支持自建服务端+本地控制端 | 绑定硬件,不可迁移 | 内置系统,不可扩展 | 需安装APP,功能受限于Android权限体系 |
| 使用门槛 | 中等(需配置ADB、网络、基础命令行) | 极低(开箱即用) | 极低 | 中高(需学习规则语法、反复调试) |
一句话总结:Open-AutoGLM = “能看懂屏幕的Tasker” + “会规划步骤的Siri” —— 而且你完全掌控它。
2. 三步走通:从连上手机到发出第一条指令
2.1 第一步:让电脑真正“看见”你的手机
这一步最容易卡住,80%的问题出在这里。别跳过,逐条核对。
手机端必须完成的3件事:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(不同品牌提示略有差异,看到“您已处于开发者模式”即成功)
- 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”(首次开启会弹窗,务必点“确定”)
- 安装并启用ADB Keyboard(关键!)
下载地址:https://github.com/sonic1988/adb-keyboard/releases(找最新apk)
安装后:设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
为什么必须?因为Open-AutoGLM需要向任意APP输入文字(比如搜索框),而标准ADB input text在部分APP中会被拦截,ADB Keyboard是绕过限制的成熟方案。
电脑端确认ADB就绪:
- Windows/macOS均需确保
adb命令全局可用- Windows:解压platform-tools后,在“系统环境变量→Path”中添加该路径,重启终端后运行
adb version,应显示类似Android Debug Bridge version 1.0.41 - macOS:在终端运行
export PATH=$PATH:~/Downloads/platform-tools(路径按实际调整),然后执行adb version
- Windows:解压platform-tools后,在“系统环境变量→Path”中添加该路径,重启终端后运行
连接验证(USB方式最稳,推荐新手首选):
adb devices正常输出应为:
List of devices attached ABC123456789 device如果显示unauthorized,请检查手机是否弹出“允许USB调试?”授权弹窗,勾选“始终允许”,再点确定。
如果显示为空或offline,重启手机ADB:adb kill-server && adb start-server。
小贴士:WiFi连接虽方便,但首次务必用USB完成授权和tcpip初始化。稳定后才切WiFi。
2.2 第二步:本地控制端快速部署(5分钟搞定)
不需要从头训练模型,也不用下载9B大模型到本地——Open-AutoGLM默认调用云端推理服务(你也可以自建,但本文聚焦“最快启动”)。
# 1. 克隆官方仓库(国内建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖(requirements.txt已精简,不含vLLM等服务端组件) pip install -r requirements.txt pip install -e . # 4. 验证安装(不报错即成功) python -c "from phone_agent.adb import ADBConnection; print('OK')"成功标志:无报错,输出OK。
2.3 第三步:发指令,看它自己干活
现在,我们用最简单的例子启动它:打开小红书,搜索“咖啡”。
🔹 命令行直接运行(推荐新手)
python main.py \ --device-id ABC123456789 \ --base-url http://127.0.0.1:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索咖啡"注意替换:
--device-id:替换成你adb devices看到的真实ID(如ABC123456789)--base-url:这是关键!本文假设你使用官方提供的云服务试用地址(无需自建)。访问 https://ai.csdn.net/mirror/open-autoglm 获取实时可用的base-url(格式如http://xxx.csdn.net:8800/v1),复制粘贴替换即可。(若你自建服务端,请确保vLLM已正确加载autoglm-phone-9b模型并映射端口)
🔹 看它怎么工作(过程详解):
- 截图分析:程序先截取当前手机屏幕,传给云端模型
- 意图理解:模型识别出“小红书”是APP名,“搜索咖啡”是动作,判断需先启动APP再进入搜索页
- 界面定位:在桌面找到小红书图标坐标,生成点击指令
- 执行操作:通过ADB发送点击事件,等待APP启动完成
- 二次截图:进入小红书首页后再次截图,识别顶部搜索栏位置
- 输入文字:调用ADB Keyboard,逐字输入“咖啡”
- 触发搜索:点击搜索按钮或回车键
整个过程约15-30秒,你只需看着手机自己点、输、跳转——就像有个朋友在帮你操作。
3. 实测哪些任务能行?哪些要小心?
我们实测了20+常见指令,结果整理如下。所有测试均在未root、未修改系统、标准APP版本下完成。
3.1 流畅运行的任务(成功率 >95%)
- 打开/关闭任意已安装APP(微信、淘宝、小红书、抖音、设置等)
- 在APP内执行标准操作:搜索关键词、点击“我的”、切换Tab页、下拉刷新
- 文字输入类:在微信聊天框发固定消息、在备忘录新建笔记、在日历创建事件
- 系统级操作:调节音量、打开蓝牙、截屏、锁屏、查看通知栏
实测案例:指令“把手机亮度调到50%” → 自动进入设置→显示→亮度→拖动滑块至中间 → 完成。全程无误触。
3.2 需人工介入的任务(成功率 60%-80%,但有明确解决路径)
涉及登录/验证码的场景:如“登录微信”、“支付10元”。
原因:Open-AutoGLM内置安全机制,检测到密码框、验证码弹窗时会暂停并提示“请人工接管”。
对策:按提示手动输入后,继续执行后续步骤;或提前在手机中保存账号密码(需APP支持)。复杂表单填写:如“在12306买一张明天北京到上海的高铁票”。
原因:多步骤跳转+时间选择器+身份信息校验,易因界面加载延迟导致步骤错位。
对策:拆分为多个短指令:“打开12306” → “点击车票预订” → “输入北京” → “输入上海” …… 更可靠。
3.3 当前受限的任务(暂不建议尝试)
- ❌金融类APP核心操作:支付宝转账、银行APP查余额。
原因:APP主动检测ADB环境,触发风控,直接闪退或黑屏。 - ❌游戏内操作:王者荣耀匹配、原神抽卡。
原因:游戏引擎屏蔽ADB输入,且界面动态渲染频繁,OCR识别失败率高。 - ❌需要生物识别的场景:指纹支付、人脸解锁。
原因:系统级安全限制,ADB无权限模拟。
重要提醒:这不是模型能力不足,而是安卓系统和APP厂商主动设置的防护墙。Open-AutoGLM的设计哲学是“尊重现有生态”,而非强行突破安全边界。
4. 提升体验的3个实用技巧
4.1 让指令更“听话”:自然语言写作心法
模型不是万能翻译器,清晰的指令=更快的成功率。我们总结出高效表达公式:
【动作】+【目标APP】+【具体对象】+【预期结果】
❌ 模糊:“帮我看看昨天的快递”
清晰:“打开菜鸟裹裹,查找昨天签收的快递,告诉我物流状态”
其他技巧:
- 用动词开头:“打开”“搜索”“点击”“输入”“滑动到”
- 避免模糊词:“那个”“上面”“左边” → 改用“搜索框”“返回按钮”“‘我的’Tab”
- 复杂任务分步:“先打开微博,再搜索‘Open-AutoGLM’,最后点击第一个结果”
4.2 连接更稳:WiFi远程控制实战配置
USB线太短?想在床上躺着控制客厅电视?用WiFi远程。
# 1. 先用USB连上,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和电脑在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP(设置→关于手机→状态信息里查看) # 3. 验证 adb devices # 应显示 192.168.1.100:5555 device避坑提示:
- 首次连接WiFi后,手机可能弹出“是否允许无线调试?”——务必点“允许”
- 部分路由器会隔离设备,若连接失败,尝试关闭路由器AP隔离功能
- 远程时截图速度略慢,建议在
main.py中增加--screenshot-delay 2参数(单位秒)
4.3 故障自查清单(5分钟定位90%问题)
| 现象 | 最可能原因 | 快速验证命令 | 解决方案 |
|---|---|---|---|
adb devices无设备 | USB调试未开启/未授权 | adb kill-server && adb start-server | 重新插拔USB,检查手机弹窗 |
| 指令执行一半卡住 | 屏幕未加载完成 | adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png | 查看截图是否为白屏/黑屏,增加--wait-for-ui参数 |
| 输入文字失败 | ADB Keyboard未启用 | adb shell settings get secure default_input_method | 确认返回值含adbkeyboard,否则手动切换输入法 |
| 模型返回乱码/超时 | base-url不可达 | curl -v http://your-url/v1/models | 检查云服务是否在线、防火墙是否放行端口 |
5. 总结:它不是魔法,但已是生产力拐点
Open-AutoGLM不会让你的手机立刻变成钢铁侠战甲,但它确实把“手机自动化”这件事,从极客玩具变成了普通人可上手的工具。
回顾这趟实操之旅,你已经掌握:
- 如何让电脑和手机建立可信连接(含ADB Keyboard这个关键钥匙)
- 如何用一行命令启动AI代理,无需碰模型、不配GPU、不改代码
- 哪些日常任务可以交给它,哪些需要你搭把手,边界在哪里
- 如何写出AI真正能听懂的指令,以及遇到问题怎么快速排查
它的价值不在于替代你,而在于把重复性操作的时间,还给你自己。每天省下3分钟点外卖、2分钟查快递、1分钟调设置——一年就是36小时。这些时间,够你学一门新技能,读完两本书,或者只是多陪家人半小时。
技术终将下沉。当“让AI操作手机”不再需要博士学位,而只需要你会复制粘贴几行命令时,真正的智能化生活,就已经开始了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。