从0开始玩转Open-AutoGLM,新手也能秒上手
你有没有想过,有一天只要动动嘴——比如对手机说“帮我打开小红书搜一下周末去哪玩”,手机就能自己完成点击、搜索、浏览全过程?听起来像科幻片,但现在,借助Open-AutoGLM,这一切已经可以实现。
这不仅是一个AI模型,更是一个能真正帮你“动手”的手机智能助理。它能看懂你的屏幕、理解你的指令,然后自动操作APP,就像有个看不见的助手在替你点手机。最棒的是,哪怕你是零基础小白,只要跟着这篇教程走,15分钟内就能让它为你打工。
本文将带你从环境准备到实际运行,一步步部署并使用 Open-AutoGLM,全程无需GPU、不烧显卡,用一台普通电脑+一部安卓手机就能搞定。
1. 什么是Open-AutoGLM?
简单来说,Open-AutoGLM 是一个开源的手机端AI Agent框架,由智谱推出,核心能力是:通过自然语言控制手机操作。
它的名字里藏着三个关键词:
- Auto:自动化执行任务
- GLM:基于智谱自家的大模型(如 GLM 系列)
- Phone:专为手机场景设计
它的工作流程非常直观:
- 你看什么,它也看什么:通过 ADB 实时获取手机屏幕画面。
- 你说什么,它就做什么:输入一句“打开抖音关注某个博主”,它会理解语义。
- 它想怎么做,就怎么点:结合视觉识别和推理能力,自动规划点击、滑动、输入等动作。
- 安全机制在线:遇到敏感操作(如支付)会暂停,等你确认。
整个过程完全脱离手动操作,特别适合做重复性任务,比如批量测试APP、自动打卡、信息采集、甚至帮你刷短视频找内容。
2. 准备工作:软硬件清单
别担心,不需要买服务器或配高端显卡。以下是你需要准备的东西:
2.1 硬件要求
| 设备 | 要求 |
|---|---|
| 本地电脑 | Windows 或 macOS 均可 |
| 安卓手机 | Android 7.0 及以上系统(真机或模拟器都行) |
| 数据线 | 支持数据传输的 USB 线(建议使用6A高质量线,避免连接不稳定) |
⚠️ 注意:iPhone 不支持,目前仅限安卓设备。
2.2 软件依赖
| 软件 | 说明 |
|---|---|
| Python | 推荐 3.10+ 版本 |
| ADB 工具 | Android Debug Bridge,用于连接和控制手机 |
| Git | 用于克隆项目代码 |
| API Key | 从 ModelScope 或 智谱平台获取,用于调用云端模型 |
这些工具都不难装,接下来我们一步步来。
3. 第一步:安装ADB并连接手机
ADB 是整个系统的“桥梁”,没有它,AI 就没法看到和操控你的手机。
3.1 下载与配置 ADB
- 访问官网下载 Android Platform Tools
- 解压到任意目录,例如
C:\platform-tools(Windows)或~/Downloads/platform-tools(Mac) - 配置环境变量,让命令行 anywhere 都能用
adb
Windows 设置方法:
- 按
Win + R输入sysdm.cpl - 进入“高级” → “环境变量”
- 在“系统变量”中找到
Path,点击编辑 → 新建 → 添加解压路径 - 打开 CMD,输入:
adb version如果显示版本号(如Android Debug Bridge version 1.0.41),说明安装成功。
Mac 设置方法:
在终端执行:
export PATH=${PATH}:~/Downloads/platform-tools为了永久生效,可以把这行加到.zshrc或.bash_profile文件里。
3.2 手机开启开发者权限
- 打开手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”
- 返回设置主界面 → 找到“开发者选项” → 开启“USB调试”
- 小米用户注意:还需额外开启“USB调试(安全设置)”
- 用数据线连接电脑
- 在电脑命令行输入:
adb devices如果看到类似下面的输出,说明连接成功:
List of devices attached ABCDEF1234567890 device此时你会在手机上看到一个弹窗:“允许USB调试吗?” 勾选“始终允许”并点击确定。
4. 第二步:安装ADB Keyboard(关键!)
这是很多人忽略但极其重要的一步:让AI能在手机上打字。
默认情况下,ADB 无法向大多数输入法发送文本。而 ADB Keyboard 是一个专门为自动化设计的输入法,能让 AI 自动填写搜索词、账号密码等内容。
安装步骤:
- 下载 APK 文件:ADBKeyboard.apk
- 直接拖进手机安装(或传到手机后手动安装)
- 安装完成后,进入“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard
✅ 验证是否生效: 断开重连 ADB 后,在命令行输入:
adb shell input text "HelloWorld"如果手机当前输入框出现了HelloWorld,恭喜,打通最后一环!
5. 第三步:部署控制端代码
现在轮到主角登场了 —— Open-AutoGLM 的本地控制程序。
5.1 克隆项目
打开你喜欢的终端,执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM5.2 安装依赖
推荐使用国内镜像加速安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -e .💡 提示:如果你遇到
pydantic版本冲突问题,可以先升级 pip:pip install --upgrade pip
安装完成后,你会看到phone_agent模块被成功注册为可导入包。
6. 第四步:选择模型服务(无需本地GPU)
很多人以为这种AI必须本地跑大模型,其实不然。Open-AutoGLM 支持接入云端API,意味着你完全不需要高配显卡。
这里有两种主流方案:
| 方案 | 是否需要GPU | 推荐指数 | 说明 |
|---|---|---|---|
| 使用 ModelScope API | ❌ 不需要 | ⭐⭐⭐⭐☆ | 免费额度够用,响应快 |
| 使用 智谱 BigModel API | ❌ 不需要 | ⭐⭐⭐⭐ | 功能稳定,文档完善 |
| 本地部署 vLLM | ✅ 需要24G+显存 | ⭐⭐ | 成本高,适合进阶玩家 |
我们以ModelScope为例,因为它对新手最友好。
6.1 获取 ModelScope API Key
- 访问 ModelScope 魔搭社区
- 注册登录后,进入“个人中心” → “AccessKey 管理”
- 创建一个新的 AccessKey,复制保存下来
这个 key 就是你调用模型的“通行证”。
7. 第五步:启动AI代理,让它替你操作手机
万事俱备,现在我们可以下达第一条指令了!
7.1 命令行运行示例
在项目根目录下执行:
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-modelscope-api-key" \ "打开美团搜索附近的火锅店"参数解释:
--device-id:来自adb devices显示的设备ID--base-url:ModelScope 的通用API地址--model:指定使用的模型名称--apikey:你的 ModelScope 密钥- 最后的字符串:你要交给AI的任务
7.2 实际效果预览
当你按下回车后,你会看到这样的日志输出:
[INFO] 当前屏幕已捕获 [INFO] 用户指令:打开美团搜索附近的火锅店 [PLAN] 1. 启动美团APP [PLAN] 2. 点击搜索框 [PLAN] 3. 输入“火锅” [PLAN] 4. 触发搜索 [ACTION] 正在启动应用 com.meituan.android ...紧接着,你的手机就会自动:
- 打开美团
- 跳转到搜索页
- 输入“火锅”
- 展示结果列表
整个过程无需你碰一下手机。
8. 高级玩法:远程WiFi控制 & Python API调用
你以为只能插线操作?NO!Open-AutoGLM 还支持无线远程控制,特别适合长期挂机任务。
8.1 使用WiFi连接设备
先用USB连接一次,然后执行:
adb tcpip 5555 adb connect 192.168.1.100:5555之后就可以拔掉数据线,只要在同一局域网内,AI依然能操控手机。
📌 小技巧:可以用
adb shell ip addr show wlan0查看手机IP地址
8.2 用Python脚本批量下发任务
除了命令行,你还可以写脚本批量处理任务:
from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 连接设备 conn = ADBConnection() conn.connect("192.168.1.100:5555") # 初始化AI代理 agent = PhoneAgent( base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", apikey="your-api-key" ) # 下达多个任务 tasks = [ "打开微博刷新首页", "打开淘宝搜索连衣裙", "打开知乎看看推荐" ] for task in tasks: print(f"执行任务:{task}") agent.run(task)这样就能实现全自动化的多任务调度,非常适合做数据采集或UI测试。
9. 常见问题与解决方案
即使一切准备妥当,也可能遇到一些坑。以下是高频问题及应对策略:
9.1 屏幕黑屏 / 敏感屏幕警告
错误提示:
屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。 根据安全规则,我无法在敏感屏幕上执行任何操作。✅ 解决方案:
- 检查是否开启了“隐私保护壳”或“安全键盘”类APP(如某些银行APP后台运行)
- 重启手机,关闭所有金融类APP
- 更换高质量数据线(6A线可显著减少画面截取失败)
- 尝试重启 ADB 服务:
adb kill-server adb start-server
9.2 ADB 连接频繁断开
- 使用 WiFi 连接时信号不稳定 → 改用 USB 线
- 多台设备同时连接 → 拔掉其他设备
- 手机休眠 → 设置“永不休眠”或保持亮屏
9.3 模型无响应或乱码
- 检查 API Key 是否正确
- 确认
--base-url地址无拼写错误 - 查看 ModelScope 控制台是否有调用记录
- 尝试更换网络环境(部分校园网会拦截外部API)
10. 总结:你的私人AI助理已上线
通过这篇文章,你应该已经成功让 Open-AutoGLM 在你的手机上跑起来了。回顾一下我们走过的路:
- 安装 ADB 并连接手机
- 配置 ADB Keyboard 实现自动输入
- 部署 Open-AutoGLM 控制端
- 接入云端模型服务,免去本地部署负担
- 下达自然语言指令,见证AI自动操作手机
- 掌握远程控制和脚本化调用技巧
你会发现,这个框架的强大之处在于:它不只是一个玩具,而是真正能提升效率的生产力工具。
你可以用它来做:
- 自动签到打卡
- 批量测试APP功能
- 抓取公开信息(如商品价格、评论)
- 辅助老年人操作复杂APP
- 构建自己的自动化工作流
更重要的是,它是开源的、可定制的、持续进化的。未来你甚至可以训练专属模型,让它更懂你的习惯。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。