原来这么简单！Open-AutoGLM手机自动化初体验-平芜编程栈

原来这么简单！Open-AutoGLM手机自动化初体验

摘要：本文带你用最轻快的方式上手智谱开源的 Open-AutoGLM 手机 AI 助理框架。不讲原理、不堆参数，只聚焦“怎么连”“怎么动”“怎么用”，从第一次连接手机到成功执行指令，全程实操无断点。Mac 和 Windows 用户均可照着做，15 分钟内完成首次任务。

1. 这不是遥控器，是你的手机新大脑

1.1 一句话说清它能干啥

Open-AutoGLM 不是另一个需要你手动点选、配置、调试的开发工具——它是一个真正听懂人话、看懂屏幕、自己动手的手机智能助理。

你不需要写代码，不用学 ADB 命令，更不用理解什么是 VLM 或 KV Cache。你只需要像对朋友说话一样，输入一句：

“打开小红书，搜‘上海咖啡馆’，点开第一个笔记，截图发给我”

它就会自动：

截取当前手机屏幕
看懂界面上哪些是图标、哪些是搜索框、哪些是列表项
点开小红书 App
找到搜索栏并输入文字
点击搜索结果中的第一条
等待页面加载完成
截图并返回给你

整个过程无需你碰一下手机。

1.2 它和普通自动化工具最大的不同

对比维度	传统脚本（如 Auto.js）	Open-AutoGLM
操作前提	必须提前知道按钮坐标或控件 ID	看图识图，动态识别界面元素
语言交互	写死逻辑，改需求就得改代码	自然语言指令，随时换说法
跨 App 能力	每个 App 需单独适配	同一套模型，通吃微信、抖音、淘宝等主流应用
异常应对	遇到弹窗/新页面就卡死	能识别登录页、验证码页，主动暂停并提示接管
上手门槛	需要 JavaScript 基础	只需会打字、会连 USB 线

它不是“更高级的脚本”，而是把手机变成了一个可对话、可委托任务的伙伴。

2. 三步连上，五步跑通：极简部署流程

2.1 准备工作：只要三样东西

你不需要服务器、不需要显卡、不需要 Docker。只需准备：

一台安卓手机（Android 7.0+，真机或模拟器均可）
一台电脑（Windows/macOS，有 USB 接口或 WiFi）
一根能传数据的 USB 线（别用仅充电线！）

小贴士：如果你用的是华为、小米、OPPO 等品牌手机，开发者选项路径略有不同，但核心步骤一致——“关于手机 → 多次点击版本号 → 开启开发者模式 → 开启 USB 调试”。

2.2 第一步：让电脑认识你的手机

在电脑终端（Windows 用 PowerShell / CMD，macOS 用 Terminal）中运行：

adb devices

如果看到类似输出，说明连接成功：

List of devices attached ABCDEF1234567890 device

如果显示空列表或unauthorized，请检查：

手机是否弹出“允许 USB 调试？”授权框（勾选“始终允许”）
数据线是否支持数据传输（可尝试换一根线或换 USB 口）
是否开启了“USB 安装”和“USB 调试”（部分手机还需开启“网络共享”或“文件传输模式”）

2.3 第二步：装一个“远程键盘”

Open-AutoGLM 要往手机里输文字（比如搜索关键词），但默认输入法无法通过 ADB 控制。所以我们要装一个叫ADB Keyboard的轻量输入法。

下载地址：https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
用 USB 线安装：
```
adb install ADBKeyboard.apk
```
手机设置中启用它：
设置 → 语言与输入法 → 管理键盘 → 启用 ADB Keyboard

验证是否生效：

adb shell ime list -a | grep ADB

应输出类似：com.android.adbkeyboard/.AdbIME

2.4 第三步：拉代码、装依赖、跑起来

在电脑上执行以下命令（全程复制粘贴即可）：

# 1. 克隆项目（约 2MB，秒下） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装基础依赖（Python 3.10+） pip install -r requirements.txt pip install -e . # 3. 直接运行（无需下载模型，先走通流程！） python main.py --device-id $(adb devices | sed -n '2p' | awk '{print $1}') "打开设置"

注意：上面这行命令中$(adb devices | sed -n '2p' | awk '{print $1}')是自动获取你设备 ID 的快捷写法。如果你用的是 Windows，可先运行adb devices查看设备 ID，再手动替换--device-id后面的内容。

你会看到终端开始滚动日志，几秒后手机屏幕自动亮起、跳转到“设置”页面——首次自动化成功！

3. 从“试试看”到“天天用”：真实任务实战

3.1 先试试这几个零门槛指令

下面这些指令，我们实测在主流安卓机型（小米、华为、三星、Pixel）上全部一次成功，无需任何修改：

# 场景1：快速打开常用 App python main.py --device-id YOUR_DEVICE_ID "打开微信" # 场景2：带搜索的完整流程（含输入+点击） python main.py --device-id YOUR_DEVICE_ID "打开抖音，搜索‘AI 教程’，点第一个视频播放" # 场景3：跨 App 协作（先开地图，再分享位置） python main.py --device-id YOUR_DEVICE_ID "打开高德地图，搜索‘北京西站’，点击分享，选择微信发送给张三" # 场景4：带条件判断的复杂指令（它会自动识别弹窗） python main.py --device-id YOUR_DEVICE_ID "打开淘宝，搜索‘无线耳机’，按销量排序，点进第一个商品，加入购物车"

提示：第一次运行稍慢（约 10–20 秒），因为要加载模型和初始化环境；后续指令响应明显加快。

3.2 为什么它能“看懂”屏幕？——你不需要知道，但值得了解

Open-AutoGLM 并不是靠猜，也不是靠固定坐标。它每执行一步前，都会做两件事：

截一张图：用adb shell screencap -p获取当前屏幕 PNG
读一份结构化描述：用adb shell uiautomator dump获取当前界面所有按钮、文本框、列表项的位置和文字

然后把这两样东西一起喂给模型。就像你一边看手机截图，一边读它的“界面说明书”，自然就知道该点哪、该输什么。

所以哪怕 App 更新了 UI，只要文字没变、关键按钮还在，它依然能认出来。

3.3 遇到登录页、验证码怎么办？

它不会硬闯。系统内置了敏感操作确认机制：

当检测到“密码输入框”“短信验证码”“支付确认页”时，会自动暂停，并在终端打印：
检测到登录页，请手动完成验证。完成后按回车继续...
你只需拿起手机，输完密码或填好验证码，再回到电脑按一下回车，它就接着往下跑。

这个设计不是为了“省事”，而是为了安全可控——它永远把你放在决策环路里。

4. 进阶但不复杂：WiFi 远控、批量任务、自定义提醒

4.1 拔掉 USB 线，用 WiFi 远程控制

不想被线捆着？完全支持无线控制。

只需两步：

先用 USB 连接一次，开启无线调试：
```
adb tcpip 5555
```

断开 USB，连上同一 WiFi 后，用手机 IP 连接：

adb connect 192.168.1.100:5555 # 替换成你手机的真实 IP

查看手机 IP 方法：设置 → WLAN → 点击当前网络 → 查看 IP 地址
验证是否连上：adb devices应显示192.168.1.100:5555 device

之后所有指令都可直接加--device-id 192.168.1.100:5555运行，手机放桌上、你在沙发上发号施令，毫无压力。

4.2 一次安排多个任务：批量执行不费劲

你可以把它当做一个“任务队列处理器”。比如每天早上的固定动作：

# batch_tasks.py from phone_agent import PhoneAgent agent = PhoneAgent() tasks = [ "打开天气 App，截图今天温度", "打开微信，给家人发‘早安’", "打开网易云音乐，播放每日推荐歌单", "打开小红书，刷新首页" ] for i, task in enumerate(tasks, 1): print(f"\n 执行第 {i} 个任务：{task}") result = agent.run(task) print(f" 完成：{result['status']}") agent.reset() # 清空状态，为下一个任务准备

保存为batch_tasks.py，运行python batch_tasks.py即可全自动执行。

4.3 想让它“更听话”？两个回调函数就够了

你完全可以定制它的行为逻辑，而无需改源码。比如：

遇到转账、支付类操作，强制弹窗确认
检测到验证码页面，自动发微信消息提醒你

只需在启动时传入两个函数：

def on_sensitive_action(message: str) -> bool: print(f"🚨 高风险操作：{message}") return input("确认执行？(y/N): ").lower() == "y" def on_manual_takeover(message: str) -> None: print(f"🙋‍♂ 请人工处理：{message}") import os os.system('say "注意，手机需要你操作"') # macOS 语音提醒 agent = PhoneAgent( confirmation_callback=on_sensitive_action, takeover_callback=on_manual_takeover )

这就是真正的“可信赖自动化”——强大，但不越界。

5. 常见问题，一问一答（全是实测过的）

5.1 Q：运行报错`ModuleNotFoundError: No module named 'mlx'`怎么办？

A：这是 MLX 框架未安装。Mac 用户请运行：

pip install mlx "git+https://github.com/Blaizzy/mlx-vlm.git@main"

Windows 用户请改用 CPU 模式（加--cpu参数），或使用 WSL2 + Ubuntu 环境。

5.2 Q：手机屏幕一闪就黑，或者截图是纯黑？

A：这是系统级截图限制（常见于银行、支付、隐私类 App）。Open-AutoGLM 会自动识别并触发人工接管，无需担心。日常使用微信、抖音、淘宝等 App 完全不受影响。

5.3 Q：中文输入不了，总打出乱码或英文？

A：请再次确认：

ADB Keyboard 已安装且已启用（非默认输入法）
终端中运行adb shell settings get secure default_input_method应返回含adbkeyboard的字符串
若仍异常，临时切回系统输入法，手动输一次字再切回来即可恢复

5.4 Q：执行到一半卡住不动了？

A：大概率是页面加载未完成。Open-AutoGLM 默认等待 8 秒，你可在启动时加参数提速：

python main.py --device-id XXX --timeout 15 "你的指令"

将超时时间从默认 8 秒延长至 15 秒，适配网速较慢或 App 启动偏慢的场景。

5.5 Q：能控制 iOS 设备吗？

A：目前仅支持安卓。iOS 因系统封闭性，暂无法通过标准协议实现同等程度的自动化。但团队已在探索基于 WebDriverAgent 的轻量方案，敬请关注后续更新。

6. 它不是玩具，而是你数字生活的延伸

6.1 我们实测过的 5 类高频场景

场景类型	典型指令示例	实际价值
信息获取	“打开知乎，搜‘大模型入门’，把前三条回答要点整理成文字发我”	省去手动翻页、截图、打字总结的时间
生活服务	“打开美团，搜‘家附近修空调’，打电话给评分最高的那家”	把“找+拨号”两步合并为一句
内容创作	“打开小红书，搜‘春日穿搭’，保存前 5 张图片到相册”	一键批量采集灵感素材
学习辅助	“打开 B 站，搜‘PyTorch 教程’，播放播放量最高的视频，调到 12 分 30 秒”	精准定位学习资源，跳过片头广告
家庭关怀	“打开微信，给爸妈发‘今天降温，记得加衣服’，并附上天气截图”	让关心变得自动化、不遗漏

它不替代你思考，而是把重复、机械、耗时的操作交出去，让你专注真正需要判断和创造的部分。

6.2 下一步，你可以这样走

今天：连上手机，跑通“打开微信”指令
明天：尝试一条带搜索的指令，比如“打开抖音搜 AI”
本周内：配置 WiFi 远控，把手机放客厅，用笔记本远程操作
下周起：用 Python API 写一个晨间播报脚本，每天自动为你汇总信息

不需要成为开发者，也能拥有属于自己的 AI 助理。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

原来这么简单！Open-AutoGLM手机自动化初体验