Open-AutoGLM详细配置指南,连手机都不再难
1. 这不是遥控器,是真正会“看”会“想”的手机AI助理
你有没有试过一边做饭一边想点外卖,结果被油锅和手机屏幕同时分心?或者在深夜加班时,反复打开同一个APP、输入同一串搜索词、点击同一类按钮——这些动作明明可以交给别人,却偏偏要自己亲手做。
Open-AutoGLM 就是来解决这个问题的。它不是传统意义上的自动化脚本,也不是只能按固定流程执行的RPA工具。它是一个基于视觉语言模型(VLM)的手机端AI Agent框架,能像人一样“看”手机屏幕、“理解”界面元素、“思考”操作路径,再通过ADB自动完成点击、滑动、输入等动作。
最直观的一句描述是:你用自然语言说一句“打开小红书搜美食”,它就能自己解锁手机、找到App图标、点开、输入关键词、点击搜索,全程无需你碰一下屏幕。
这不是科幻预告片,而是已经开源、可本地部署、真机实测可用的技术方案。本文不讲抽象架构,不堆参数指标,只聚焦一件事:手把手带你把这套系统跑起来,从零开始,连手机都不再难。
我们不预设你懂Android开发、不假设你熟悉大模型推理、也不要求你有GPU服务器经验。只要你会用命令行、能连上手机、愿意花90分钟认真走一遍流程,就能让AI第一次替你点开那个你懒得找的App。
2. 先搞清楚:它到底在做什么?为什么必须这样配?
2.1 它不是“发指令→执行”,而是“观察→理解→规划→行动”
很多开发者第一次接触AutoGLM时,会下意识把它当成一个增强版的ADB命令封装。但其实它的核心逻辑完全不同:
- 传统ADB脚本:你知道坐标(500,800)是“搜索框”,所以写
adb shell input tap 500 800→adb shell input text "美食" - Open-AutoGLM:它先截图 → 用视觉语言模型识别出“这是小红书首页,右上角有个放大镜图标,旁边写着‘搜索’” → 推理出“点击放大镜可进入搜索页” → 再调用ADB执行对应动作。
这意味着:它不依赖固定坐标,不硬编码UI结构,能适应不同分辨率、不同版本、甚至不同语言的界面。
这也是为什么它必须搭配视觉模型+语言模型+实时屏幕感知——三者缺一不可。
2.2 配置难点不在代码,而在“连接链路”的每一环
整个系统实际由三部分组成:
| 组件 | 所在位置 | 关键作用 | 易错点 |
|---|---|---|---|
| AI推理服务 | 云服务器(如AutoDL) | 加载9B视觉语言模型,处理截图并生成操作指令 | 显存不足直接崩溃;网络不通则无法调用 |
| 控制端(Open-AutoGLM) | 你的本地电脑或云主机 | 接收指令、截取手机屏幕、发送截图给AI、接收操作指令、调用ADB执行 | ADB未配置好则无法连设备;Python环境冲突导致启动失败 |
| 安卓设备 | 你的真机或模拟器 | 提供真实屏幕画面、响应ADB指令、支持文本输入 | USB调试未授权、ADB Keyboard未启用、锁屏密码阻断操作 |
你会发现:90%的问题不出在模型或代码,而出在这三者的连接是否稳定、权限是否到位、路径是否打通。
所以本文的配置顺序,完全按照这条链路的实际依赖关系来组织——先确保你能“看见”手机,再确保AI能“读懂”画面,最后才让它“动手”。
3. 环境准备:三台设备,四个确认点
别急着敲命令。在打开终端前,请先确认以下四件事全部满足。少一个,后面所有步骤都可能卡在某个报错里反复折腾。
3.1 你的本地电脑(控制端)
- 操作系统:Windows 10/11 或 macOS Monterey 及以上
- Python 版本:严格使用 Python 3.10(3.11+ 有兼容问题,3.9 会缺失部分依赖)
- 已安装 Git(用于克隆代码)
- 已安装 ADB 工具,并成功加入系统 PATH(验证方式:终端输入
adb version,应返回类似Android Debug Bridge version 1.0.41)
小技巧:Windows 用户推荐直接下载 Platform-tools,解压后右键“属性→安全→编辑→勾选‘完全控制’”,再添加到 PATH;macOS 用户用 Homebrew 更省心:
brew install android-platform-tools
3.2 你的安卓手机(执行端)
- Android 7.0 及以上(建议 Android 10+ 真机,模拟器兼容性差)
- 已开启“开发者选项”(设置→关于手机→连续点击“版本号”7次)
- 已开启“USB调试”(设置→开发者选项→USB调试)
- 已安装并启用 ADB Keyboard(关键!否则AI无法输入文字)
注意:首次连接时,手机弹出“允许USB调试吗?”务必勾选“始终允许”,否则每次重启都会重新提示。
3.3 你的云服务器(AI大脑,可选但推荐)
虽然 Open-AutoGLM 支持本地运行轻量模型,但 AutoGLM-Phone-9B 是一个真正的多模态大模型,需要 GPU 加速。本地笔记本很难流畅运行,因此强烈建议使用云 GPU(如 AutoDL、Vast.ai)。
- GPU 显存 ≥32GB(A100-40GB 最稳)
- Ubuntu 22.04 系统
- 已开通 SSH 访问权限
- 已配置好 ModelScope 和 vLLM 环境(若自行搭建,需额外安装;本文默认使用官方预置镜像)
如果你暂时不想租云主机,也可以先跳过这一步,用
--mock-model参数本地测试控制流(不调用真实AI),验证ADB和手机连接是否正常。
3.4 四个连接确认点(动手前必查)
请在本地电脑终端中依次执行以下命令,全部返回预期结果才算准备就绪:
# 1. ADB 是否就位? adb version # 2. 手机是否已连接且授权? adb devices # 应显示类似:XXXXXX device # 3. 是否能成功截图?(测试基础通信) adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png ./test_screen.png # 4. 本地 Python 是否为 3.10? python --version # 必须输出 Python 3.10.x如果任一命令失败,请回到对应环节检查,不要强行往下走。
4. 控制端部署:三步完成本地控制中枢
现在开始在你的本地电脑上部署 Open-AutoGLM 控制端。它就像一个“AI操作台”,负责协调手机与云端AI之间的所有通信。
4.1 克隆代码并安装依赖
打开终端(Windows 用 CMD/PowerShell,macOS 用 Terminal),执行:
# 创建工作目录 mkdir ~/autoglm && cd ~/autoglm # 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 创建并激活 Python 3.10 虚拟环境(推荐,避免污染全局环境) python3.10 -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows激活后,命令行前缀应出现
(venv)字样。
接着安装依赖:
# 使用清华源加速(国内用户必备) pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .若遇到
torch安装失败,请先手动安装对应 CUDA 版本的 PyTorch:访问 pytorch.org,选择Linux / Windows / macOS+Pip+CUDA 12.1(或你系统匹配的版本),复制命令执行。
4.2 验证控制端基础能力
先不连AI,只测试它能否独立操控手机:
# 运行一个纯ADB测试脚本(不调用模型) python examples/basic_demo.py --device-id $(adb devices | grep -v "List" | awk '{print $1}' | head -n1)正常现象:手机屏幕短暂亮起,自动点击左上角区域(模拟返回键),终端打印类似:
[INFO] Connected to device: XXXXXX [INFO] Taking screenshot... [INFO] Clicking at (100, 150)❌ 若报错Device not found,请检查adb devices输出;若报错Permission denied,请确认USB调试已授权。
4.3 配置远程AI服务地址(对接云服务器)
假设你已在 AutoDL 上部署好 vLLM 服务,监听在http://123.45.67.89:8800/v1,那么只需在运行命令时指定:
python main.py \ --device-id XXXXXX \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开微信,进入文件传输助手,发送'你好,AI已就绪'"关键参数说明:
--device-id:从adb devices获取的设备ID(如ZY322KDL9J)--base-url:云服务器公网IP + vLLM映射端口(注意末尾/v1)--model:模型名称,必须与vLLM启动时指定的--model一致
5. 手机端深度适配:三个必须做的“非标准”设置
很多用户卡在“AI没反应”,其实问题90%出在手机端。以下三项设置看似简单,却是Open-AutoGLM能否真正“动手”的前提。
5.1 ADB Keyboard:让AI拥有“打字手”
这是整个流程中最容易被忽略、却最关键的一环。
- 下载 ADBKeyboard.apk
- 传到手机并安装(设置→安全→允许未知来源应用)
- 进入「设置→语言和输入法→虚拟键盘→默认键盘」,选择「ADB Keyboard」
- 返回桌面,长按任意输入框,选择「输入法」→「ADB Keyboard」(部分机型需此步)
验证方式:在微信聊天框长按→“粘贴”,若弹出软键盘且顶部显示“ADB Keyboard”,即成功。
5.2 屏幕录制权限(Android 10+ 必须开启)
Open-AutoGLM 截图依赖screenrecord或screencap,而 Android 10+ 默认禁止后台截屏。
- 进入「设置→应用→特殊应用权限→无障碍」→ 开启
Open-AutoGLM(或ADB相关进程) - 或更直接:在「开发者选项」中开启「模拟辅助触摸」和「指针位置」(便于调试时看清点击位置)
5.3 锁屏与电源管理豁免
AI操作需要持续唤醒屏幕,否则任务中途熄屏就会中断。
- 「设置→电池→电池优化」→ 找到
ADB或platform-tools→ 选择「不优化」 - 「设置→显示→休眠」→ 设置为「永不」或至少「10分钟」
- 若手机有「智能充电」「内存清理」等激进优化功能,请临时关闭
小技巧:运行期间可保持手机插着充电线,避免电量焦虑。
6. 实战运行:从一句话指令到完整操作闭环
现在,所有齿轮都已咬合。我们来执行第一个真正意义上的AI任务。
6.1 最简指令测试:打开计算器并输入数字
python main.py \ --device-id $(adb devices | grep -v "List" | awk '{print $1}' | head -n1) \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开系统计算器,输入123加456,等于多少?"你将看到:
- 手机自动解锁(若已设置锁屏密码,需提前关闭)
- 滑动找到「计算器」图标并点击打开
- 依次点击数字键
123+456= - 终端打印操作日志,最后输出结果
579
6.2 进阶指令:跨App协同操作
试试这个更复杂的任务:
python main.py \ --device-id XXXXXX \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开高德地图,搜索‘最近的咖啡馆’,截图结果页面,保存到相册"AI会:
- 启动高德地图
- 点击搜索框(自动识别图标)
- 输入“最近的咖啡馆”
- 点击搜索按钮
- 截图当前页面
- 调用系统分享功能保存至相册
注意:首次运行耗时较长(约60–120秒),因需加载模型、上传截图、等待AI推理、解析动作序列。后续指令会明显加快。
6.3 故障快查表:常见现象与应对
| 现象 | 可能原因 | 快速解决 |
|---|---|---|
终端卡在Loading model... | 云服务器未启动vLLM,或网络不通 | curl http://123.45.67.89:8800/v1/models测试API连通性 |
| 手机无任何反应 | ADB Keyboard未启用,或USB调试未授权 | 重做 5.1 和 3.2 步骤 |
| AI识别错按钮(如把“返回”当“搜索”) | 屏幕截图模糊、亮度低、有遮挡 | 调整手机角度,关闭深色模式,确保截图清晰 |
| 输入中文乱码 | ADB Keyboard不支持中文输入 | 暂用英文指令,或改用--text-input-method adb强制ADB输入 |
| 操作中途停止 | 手机休眠、USB断连、AI超时 | 检查电源管理设置,换USB线,增加--timeout 120参数 |
7. 总结:你已经拥有了一个可进化的手机AI伙伴
回看这一路:你配置了ADB,启用了开发者选项,安装了专用输入法,部署了控制端,对接了云端AI,最终让一句自然语言变成屏幕上真实的点击与滑动。
这不只是一个技术教程的终点,而是你与手机关系重构的起点。
- 它不再是你被动操作的工具,而是一个能主动理解你意图的协作者;
- 它不再受限于固定脚本,而是能根据界面变化动态调整策略的智能体;
- 它不追求“全自动”,而是保留关键节点的人工确认(如支付、登录),在效率与安全间取得平衡。
下一步,你可以:
- 把常用操作写成
.sh脚本,一键执行“每日打卡”“周报生成”; - 在
examples/目录下修改custom_task.py,定义自己的APP操作模板; - 尝试 WiFi ADB 连接,摆脱USB线束缚,实现真正的远程手机管家;
- 结合企业微信/飞书机器人,让AI帮你自动回复客户消息、抓取竞品数据。
技术的价值,从来不在它多酷炫,而在于它是否真的让你少点一次屏幕、少输一个字、少等一分钟。
你现在,已经做到了。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。