新手必看:Open-AutoGLM安装配置避坑全攻略
本文专为零基础用户打造,全程避开90%新手踩过的坑——ADB环境变量配错、手机调试没开全、WiFi连接反复失败、中文输入乱码、模型调用404……所有真实痛点,一步一图(文字版)讲透。
1. 先搞懂它到底能干啥(别急着装)
你不需要理解“多模态”“视觉语言模型”这些词。
就记住一句话:你用大白话告诉它想干啥,它就能自己点手机、输文字、滑页面,像真人一样操作。
比如:
- “打开小红书,搜‘北京咖啡馆’,点第一个笔记,保存图片”
- “进微信,找到‘张三’,发消息‘明天会议改到下午三点’”
- “打开淘宝,搜‘无线耳机’,按销量排序,把前3个商品标题抄下来”
它不是遥控器,也不是录屏回放。它是真正在“看”你的屏幕、“听”你的指令、“想”下一步怎么走,再动手执行。
所以安装前,请先确认三件事:
- 你有一台Android 7.0以上的真机(模拟器也行,但真机更稳)
- 你有一台Windows 或 macOS 电脑(Linux 用户请跳过本教程,需自行适配ADB路径)
- 你愿意花30分钟跟着一步步操作(不是复制粘贴就完事,每个步骤都有“为什么”)
如果上面三条都满足,咱们现在就开始——不绕弯、不炫技、不堆术语,只解决你马上会遇到的问题。
2. 环境准备:从零开始的四步通关
别被“环境配置”吓住。这一步其实就四件事:装好ADB、连上手机、配对成功、验证通路。我们按最常卡壳的顺序来。
2.1 安装ADB工具(Windows/macOS通用)
ADB不是软件,是命令行工具包。官方下载地址:https://developer.android.com/tools/releases/platform-tools
别下错!只下“Platform Tools”这个压缩包(约30MB),不是整个Android Studio。
Windows用户(重点避坑)
- 解压后得到一个叫
platform-tools的文件夹,里面全是.exe文件 - 关键动作:把这个文件夹的完整路径加进系统环境变量
(例:C:\Users\YourName\Downloads\platform-tools) - 怎么加?
Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴上面那个路径 → 确定 - 验证是否成功:
打开一个新的命令提示符(CMD),输入:
如果显示类似adb versionAndroid Debug Bridge version 1.0.41,说明成功;
如果报错'adb' 不是内部或外部命令,说明路径没加对,回去重做。
macOS用户(重点避坑)
- 解压后同样得到
platform-tools文件夹 - 打开终端,输入:
(注意:如果你用的是老系统用bash,请把echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc.zshrc换成.bash_profile) - 验证:
有版本号就对了。adb version
常见坑:
- 下载了带图形界面的“ADB工具箱”,结果根本没法用;
- 路径里有中文或空格(如
C:\我的软件\adb),导致命令失效;- 没重启终端/CMD,环境变量没生效。
2.2 手机端设置:三步必须全开
很多用户卡在这一步,反复重试却始终连不上。原因只有一个:三个开关没全打开。
请严格按顺序操作(以主流安卓为例,华为/小米/OPPO等设置路径略有不同,但关键词一致):
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”开启USB调试
设置 → 系统和更新 → 开发者选项 → 找到“USB调试”,打开它
(有些手机还要求同时打开“USB调试(安全设置)”,也一并打开)安装并启用ADB Keyboard(中文输入核心!)
- 下载地址:https://github.com/senzhk/ADBKeyBoard/releases
(找最新版ADBKeyboard_v1.0_all.apk,直接下载安装) - 安装后,进入手机设置 → 语言与输入法 → 当前输入法 → 选择“ADB Keyboard”
- 必须手动切换一次:长按任意输入框 → “选择输入法” → 点“ADB Keyboard”
- 下载地址:https://github.com/senzhk/ADBKeyBoard/releases
常见坑:
- 只开了USB调试,没开“USB调试(安全设置)”,连接时提示“授权失败”;
- 没装ADB Keyboard,后面输入中文直接乱码或失败;
- 手机连电脑后弹出“允许USB调试吗?”窗口,点了“拒绝”或勾选了“不再询问”,导致永远连不上——解决办法:在开发者选项里“撤销USB调试授权”,再重新连。
2.3 连接手机:USB优先,WiFi备用
USB直连(推荐新手首选)
- 用原装数据线连接手机和电脑
- 手机弹窗点“允许”
- 电脑CMD/终端输入:
正常输出应为:adb devices
有List of devices attached 1234567890abcdef devicedevice字样,说明连通。
❌ 显示unauthorized,说明手机没点“允许”;
❌ 显示空列表,说明驱动没装好(华为/小米用户请去官网装对应手机助手)。
WiFi无线连接(适合不想插线的用户)
注意:必须先用USB连一次,才能开启WiFi模式
- USB连好后,在CMD/终端输入:
(看到adb tcpip 5555restarting in TCP mode port: 5555即成功) - 断开USB线,确保手机和电脑在同一WiFi下
- 查看手机IP:设置 → WLAN → 点当前网络 → IP地址(通常是
192.168.x.x) - 电脑输入:
成功会显示adb connect 192.168.x.x:5555connected to 192.168.x.x:5555
常见坑:
- WiFi连接后
adb devices显示offline:重启手机ADB服务,输入adb kill-server && adb start-server;- 连上WiFi但无法控制:检查路由器是否开启了“AP隔离”,关掉即可;
- 电脑连公司WiFi,手机连手机热点:必须同网段,否则不通。
2.4 验证控制能力:三行命令测通路
连上只是第一步,还要确认你能真正操控手机。运行以下三行命令(每行回车后等几秒看反馈):
adb shell input keyevent KEYCODE_HOME # 回到桌面 adb shell input text "test" # 输入英文(测试ADB Keyboard) adb shell screencap -p /sdcard/test.png # 截图(生成在手机相册)- 第一行:手机应立刻回到桌面;
- 第二行:任意可输入界面(如微信聊天框)应出现
test; - 第三行:打开手机相册,能看到一张叫
test.png的截图。
全部成功,说明ADB控制链路100%打通。
❌ 任一失败,请回头检查2.1–2.3步,不要往下走。
3. 部署Open-AutoGLM控制端:三分钟搞定
这一步最简单,但最容易因网络/权限问题失败。我们用最稳妥的方式。
3.1 克隆代码 & 安装依赖
打开CMD/终端,依次执行(复制一行,回车,等它跑完再下一行):
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .常见坑:
- 报错
Could not find a version that satisfies...:升级pip,python -m pip install --upgrade pip;- 报错
Permission denied(macOS):在命令前加sudo,即sudo pip install ...;- 卡在
Building wheel for ...:耐心等2–5分钟,这是编译过程,不是卡死。
3.2 获取设备ID(不是序列号!)
别去手机设置里找“设备序列号”。正确做法是:
adb devices输出示例:
List of devices attached emulator-5554 device 1234567890abcdef device你要记下的就是那一串字母数字组合(如1234567890abcdef),不是emulator-5554这种模拟器ID。
把它复制下来,后面要用。
3.3 启动AI代理:一条命令跑起来
重要前提:你已经有一个运行中的AutoGLM-Phone模型服务(云服务或本地vLLM)。
如果你还没部署模型服务,请先访问 CSDN星图镜像广场 搜索“AutoGLM-Phone”,一键拉起预置服务。
假设你的模型服务地址是http://192.168.1.100:8800/v1(这是常见内网部署地址),设备ID是1234567890abcdef,那么运行:
python main.py \ --device-id 1234567890abcdef \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"你会看到类似这样的实时输出:
[Step 1] Capturing screenshot... [Step 1] Current app: System Home [Step 1] Sending to model... <think>当前在桌面,需要启动抖音</think> <answer>do(action="Launch", app="抖音")</answer> [Step 1] Executing: Launch app '抖音'看到Executing开头的日志,说明AI已开始操控手机。
❌ 如果卡在Sending to model...超过30秒,检查:
--base-url地址能否在浏览器打开(如http://192.168.1.100:8800/v1);- 服务器防火墙是否放行了8800端口;
- 模型服务是否真的在运行(
curl http://192.168.1.100:8800/health应返回{"status":"ok"})。
4. 实战避坑指南:95%用户都问过的5个问题
4.1 问题:中文输入全是乱码或不显示?
原因:ADB Keyboard没启用,或没切换成功。
解法:
- 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已启用;
- 在任意输入框长按 → “选择输入法” → 手动选一次“ADB Keyboard”;
- 重启ADB服务:
adb kill-server && adb start-server; - 再试
adb shell input text "你好",应正常显示。
4.2 问题:WiFi连接后,adb devices显示unauthorized?
原因:手机USB调试授权是按设备ID绑定的,WiFi连接用了新ID。
解法:
- 手机设置 → 开发者选项 → “撤销USB调试授权”;
- 重新执行
adb connect 192.168.x.x:5555; - 手机弹窗点“允许”。
4.3 问题:执行到支付页面,屏幕变黑,然后卡住?
原因:安卓系统禁止敏感页面截图,AI收到黑屏后触发人工接管机制。
解法:
- 看到日志出现
Takeover required: Please complete payment manually; - 手动完成支付/验证码;
- 按回车键继续(默认接管回调是阻塞式等待)。
4.4 问题:点击位置明显偏移,点不到目标按钮?
原因:坐标归一化依赖准确的屏幕分辨率,而某些定制ROM会报告错误尺寸。
解法:
- 运行
adb shell wm size,查看输出(如Physical size: 1080x2400); - 对比手机实际分辨率(设置 → 显示 → 屏幕分辨率),若不一致:
- 临时修复:
adb shell wm size 1080x2400(替换成真实值); - 永久修复:换用原生安卓或Pixel手机。
- 临时修复:
4.5 问题:模型返回404 Not Found或Connection refused?
原因:--base-url地址格式错误。
正确写法:
http://192.168.1.100:8800/v1(末尾必须有/v1)http://localhost:8000/v1(本地部署)- ❌
http://192.168.1.100:8800(缺/v1) - ❌
https://xxx.ngrok.io(Open-AutoGLM目前不支持HTTPS前端,需反向代理转HTTP)
5. 进阶技巧:让AI更听话的3个实用方法
5.1 指令越具体,成功率越高
❌ 差:“帮我订外卖”
好:“打开美团,搜‘海底捞’,选‘国贸店’,点‘双人套餐’,加一份酸梅汤,下单支付”
理由:AI没有常识,它只按字面执行。给它明确App名、关键词、操作动词(点/选/加/下单),成功率翻倍。
5.2 加入“容错指令”,避免死循环
在指令末尾加一句:
“如果3次点击都没反应,就按返回键,再试一次”
AI会把它当作规则写进思考链,自动加入重试逻辑,而不是卡在原地。
5.3 用Python API实现批量任务
不用每次敲命令,写个脚本自动跑:
from phone_agent.agent import PhoneAgent from phone_agent.model.client import ModelConfig from phone_agent.config import AgentConfig model_config = ModelConfig( base_url="http://192.168.1.100:8800/v1", model_name="autoglm-phone-9b" ) agent_config = AgentConfig( max_steps=50, device_id="1234567890abcdef" ) agent = PhoneAgent(model_config, agent_config) tasks = [ "打开小红书,搜‘深圳租房’,保存前5个笔记封面", "进微信,群‘技术讨论’,发消息‘今日分享:Open-AutoGLM教程’", "打开淘宝,搜‘机械键盘’,按价格从低到高,记录第1个商品标题和价格" ] for i, task in enumerate(tasks, 1): print(f"\n--- 任务 {i} 开始 ---") result = agent.run(task) print(f"结果:{result}")保存为batch_run.py,运行python batch_run.py即可。
6. 总结:你已掌握的核心能力
回顾一下,你现在能独立完成:
- 在Windows/macOS上正确安装并验证ADB
- 让任意安卓手机通过USB/WiFi稳定接入电脑
- 成功部署Open-AutoGLM控制端并连接云端模型
- 用自然语言指令驱动手机完成多步操作
- 排查并解决中文输入、黑屏接管、坐标偏移等高频问题
- 编写Python脚本实现批量自动化任务
这不是一个玩具项目,而是真正可用的生产力工具。它背后是视觉理解、动作规划、设备控制、安全约束四大能力的融合。你不需要懂原理,但你已经拿到了钥匙。
下一步,你可以:
🔹 尝试更复杂的指令,比如跨App协作(微信发链接→浏览器打开→截图→保存);
🔹 把它集成进你的工作流,比如每天自动抓取竞品App的首页文案;
🔹 甚至基于它的模块,开发自己的垂直场景Agent(电商导购、教育陪练、金融助手)。
技术不难,难的是迈出第一步。恭喜你,这一步,你已经稳稳踏出去了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。