自然语言控制安卓手机？Open-AutoGLM新手入门全攻略-平芜编程栈

自然语言控制安卓手机？Open-AutoGLM新手入门全攻略

你有没有想过，不用动手点屏幕，只说一句“帮我把微信里的未读消息全标为已读”，手机就自动完成？或者“打开小红书，搜‘上海周末咖啡馆’，截三张图发到钉钉群”——整套操作一气呵成？这不是科幻电影，而是 Open-AutoGLM 正在做的事。

Open-AutoGLM 是智谱开源的手机端 AI Agent 框架，它不靠预设脚本，也不依赖固定界面结构，而是真正“看懂”你的手机屏幕，理解你的自然语言指令，再像真人一样一步步点击、滑动、输入、截图。它把大模型的语义理解能力、视觉语言模型的界面感知能力，和 ADB 的底层操控能力拧成一股绳，让手机第一次拥有了可对话、可委托、可信任的“数字分身”。

这篇教程不讲原理推导，不堆参数配置，只聚焦一件事：让你从零开始，在 30 分钟内，亲手让 AI 第一次替你操作手机。无论你是刚配好 Python 环境的开发者，还是只会用手机拍照的非技术用户，只要按步骤来，就能跑通第一个指令。

1. 先搞明白：它到底能做什么，又不能做什么

在动手前，花两分钟建立一个清晰预期——这能帮你少踩 80% 的坑。

1.1 它能做的三件事（真实、稳定、有边界）

精准理解当前界面：不是猜，是“看”。它会实时抓取手机屏幕截图，用视觉语言模型识别按钮文字、图标位置、输入框状态。比如你正在微信聊天页，它能准确指出“+”号在哪、“语音输入”按钮是否高亮。
执行复杂多步任务：一条指令背后是完整动作链。“打开淘宝搜‘降噪耳机’并加购第一款”会被拆解为：启动淘宝 → 等待首页加载 → 点击搜索框 → 输入文字 → 点击搜索 → 滑动到第一款商品 → 点击进入详情页 → 找到“加入购物车”按钮 → 点击。
安全接管敏感环节：遇到登录页、支付密码框、短信验证码弹窗时，它会主动暂停，把控制权交还给你。你确认后，它才继续——这是设计进骨子里的安全护栏，不是后期补丁。

1.2 它暂时做不到的三件事（坦诚说明，避免失望）

不支持 iOS：目前仅适配 Android 7.0+ 设备。iPhone 因系统限制无法通过 ADB 实现同等深度控制。
不替代手动精细操作：比如“把这张照片调成胶片风，饱和度+15，阴影提亮 20%”，这类像素级图像编辑不在其能力范围内。它的强项是“界面导航型任务”，不是“创意生产型任务”。
不保证 100% 一次成功：手机厂商定制 UI（如小米 HyperOS、华为鸿蒙）可能造成元素识别偏移；网络延迟可能导致截图不同步；极少数应用（如银行类）会主动屏蔽 ADB 截图。但这些情况都有明确报错和人工接管机制，不会“卡死”或“乱点”。

一句话总结能力边界：
它是一个聪明、谨慎、手脚麻利的“数字助理”，擅长处理你每天重复做的那些“点一点、输一输、找一找”的事；但它不是万能遥控器，更不是越狱工具。用对场景，它就是效率倍增器；硬塞给它不匹配的任务，它会礼貌地告诉你：“这个，得您来一下。”

2. 准备工作：四件套配齐，5 分钟搞定

所有操作都在你自己的电脑和手机上完成，不需要云服务器、不需要 GPU、不需要烧钱买算力。我们采用最轻量的方案：本地控制端 + 远程 API 调用（推荐 ModelScope 或智谱 BigModel），零显存压力。

2.1 你的电脑需要什么

操作系统：Windows 10/11 或 macOS Monterey 及以上（M1/M2/M3 芯片完全兼容）
Python 版本：3.10 或 3.11（强烈不建议用 3.12，部分依赖尚未适配）
一个空文件夹：比如D:\open-autoglm或~/Projects/open-autoglm，后面所有操作都放这里

2.2 你的安卓手机需要什么

系统版本：Android 7.0（Nougat）及以上（绝大多数 2016 年后发布的机型都满足）
一根靠谱的数据线：重点提示：很多失败案例源于劣质数据线只充电不传数据。建议使用原装线，或明确标注“支持数据传输”的 Type-C 线（6A 规格更稳）
一个干净的测试环境：首次运行建议关闭手机上的“应用锁”“隐私保护屏”等第三方安全软件，避免干扰 ADB 权限

2.3 安装 ADB 工具（真正的 5 分钟）

ADB（Android Debug Bridge）是连接电脑和手机的“桥梁”，它负责截图、点击、输入。安装它，比装微信还简单。

Windows 用户

访问 Android SDK Platform-Tools 官网下载 ZIP 包
解压到任意位置，例如C:\platform-tools
配置环境变量：
- 按Win + R，输入sysdm.cpl→ “高级” → “环境变量”
- 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你解压的路径C:\platform-tools
打开新命令提示符（cmd），输入adb version，看到类似Android Debug Bridge version 1.0.41即成功

macOS 用户

同样下载 ZIP 包，解压到~/Downloads/platform-tools
打开终端，运行：

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

输入adb version验证

验证关键一步：
不要跳过adb version！很多后续问题根源都是 ADB 没装对。如果提示command not found，请回头检查路径是否拼写错误、是否重启了终端。

3. 手机设置：三步开启“被操控”权限

手机端设置是成功率最高的环节，只需三步，每步都有明确反馈。

3.1 开启开发者选项（10 秒搞定）

进入手机设置 → 关于手机
连续快速点击“版本号”7 次（部分机型需 10 次）
屏幕会弹出提示：“您现在处于开发者模式”或“开发者选项已启用”

小技巧：如果找不到“关于手机”，直接在设置顶部搜索框输入“开发者”即可直达。

3.2 开启 USB 调试（核心权限）

返回设置主菜单，进入开发者选项
找到并开启“USB 调试”
小米/OPPO/ vivo 用户额外注意：向下滚动，务必同时开启“USB 调试（安全设置）”和“USB 安装”，否则无法安装后续工具

3.3 安装 ADB Keyboard（解决输入难题）

手机自带输入法无法被 ADB 控制，必须换一个。我们用开源项目 ADBKeyboard：

电脑浏览器访问 ADBKeyboard.apk 下载页
下载 APK 文件
用数据线连接手机，将 APK 文件复制到手机内部存储根目录（如Phone/Download/）
在手机上找到该文件，点击安装（若提示“禁止安装未知来源应用”，请前往设置 → 安全 → 未知来源应用安装 → 允许当前应用）

安装后必做：
进入手机设置 → 语言与输入法 → 当前输入法，将默认输入法切换为“ADB Keyboard”。这是后续所有文字输入（如搜索关键词）的前提。

4. 部署控制端：克隆、安装、连设备

现在，你的电脑和手机已“握手成功”，下一步是把 Open-AutoGLM 的控制大脑装上。

4.1 克隆代码仓库

确保你在之前准备好的空文件夹里（如D:\open-autoglm），打开命令行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

没有安装 Git？
官网下载安装包：https://git-scm.com/downloads，安装时勾选 “Add Git to PATH” 即可。

4.2 安装 Python 依赖（安静、快速、无报错）

# 推荐使用清华镜像源，国内下载飞快 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

常见问题直击：
如果pip install -e .报错error: Microsoft Visual C++ 14.0 or greater is required（Windows）：
请去微软官网下载安装 Build Tools for Visual Studio，勾选“C++ build tools”即可，无需安装整个 VS。

4.3 连接你的手机（USB 或 WiFi）

USB 连接（新手首选，最稳）

用数据线连接手机和电脑
手机上弹出“允许 USB 调试吗？” → 勾选“始终允许”，点击确定
电脑命令行输入：

adb devices

正确输出示例：

List of devices attached 8B2X123456789ABC device

device状态即表示连接成功。前面那串字母数字就是你的device-id。

WiFi 连接（适合想摆脱线缆的用户）

先用 USB 连接，运行：

adb tcpip 5555

断开 USB 线，确保手机和电脑在同一 WiFi 下
查看手机 IP 地址（设置 → 关于手机 → 状态信息 → IP 地址），假设为192.168.1.105
运行：

adb connect 192.168.1.105:5555

成功提示：connected to 192.168.1.105:5555

5. 运行第一个指令：从“你好”到“真干活”

万事俱备，现在用一条最简单的指令，见证奇迹。

5.1 获取免费 API Key（两分钟，零成本）

我们不自己部署大模型，而是调用 ModelScope（魔搭）的公开 API，它提供ZhipuAI/AutoGLM-Phone-9B模型，完全免费，无需申请配额。

访问 ModelScope 官网，注册/登录账号
点击右上角头像 → “个人中心” → “API 密钥” → “创建新密钥”
复制生成的密钥（以sk-开头的一长串字符），妥善保存

5.2 执行你的第一条自然语言指令

在Open-AutoGLM目录下，运行以下命令（请将<your-device-id>替换为adb devices显示的 ID，将<your-api-key>替换为你刚复制的密钥）：

python main.py \ --device-id <your-device-id> \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey <your-api-key> \ "打开设置，搜索‘蓝牙’，然后打开蓝牙开关"

执行时你会看到什么？
终端会先打印Connecting to device...
然后出现Taking screenshot...（手机屏幕会瞬间闪一下，这是在截图）
接着是Analyzing screen with VLM...（模型正在“看图说话”）
最后是Executing action: CLICK on (x=520, y=310)（它找到了“蓝牙”开关并点击）
整个过程约 15-30 秒，取决于网络和手机性能。

成功标志：你的手机设置页自动打开了，蓝牙开关已变为“开启”状态。

5.3 换个更有趣的指令试试

别停！马上再试一个带输入的：

python main.py \ --device-id <your-device-id> \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey <your-api-key> \ "打开微信，找到‘张三’的聊天窗口，发送一条消息：‘今天会议改到下午三点了’"

为什么能发消息？
因为 ADBKeyboard 已就位，模型识别出输入框后，会通过 ADB 发送文本，再模拟回车键。整个过程，你只需看着，不用碰手机。

6. 进阶技巧：让 AI 更懂你、更可靠

跑通第一条指令只是开始。下面这些技巧，能让你从“能用”走向“好用”。

6.1 提示词（Prompt）怎么写才高效？

模型不是魔法，它依赖你给的指令质量。记住三个原则：

具体 > 模糊：❌ “帮我查一下天气” → “打开墨迹天气 App，定位到北京市朝阳区，查看未来 24 小时温度曲线”
分步 > 一步到位：❌ “订一张明天从北京到上海的高铁票” → “打开 12306 App，登录我的账号，查询明日 G101 次列车余票，选择二等座下单”
带约束 > 无约束：❌ “给我找几个好玩的 App” → “在应用商店搜索‘解谜游戏’，只看评分 4.5 以上的前 3 个，截图它们的详情页”

6.2 遇到问题？先看这三处日志

当指令没反应或报错，不要慌，直接看终端最后 10 行输出：

Screenshot failed→ 检查手机是否锁屏、是否开启了“防截屏”功能（部分金融 App 会强制开启）
Element not found→ 模型没在当前截图里找到目标按钮。尝试先手动打开目标 App，再运行指令
ADB command failed→ 数据线接触不良或 ADB 服务异常。拔插数据线，或运行adb kill-server && adb start-server

6.3 用 Python API 写自己的小工具

不想每次都敲长命令？用几行 Python 封装：

from phone_agent.main import run_agent # 一行代码，发起任务 result = run_agent( device_id="8B2X123456789ABC", base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", api_key="sk-xxxxxxxxxxxxxxxx", instruction="打开相机，拍一张照片，保存到相册" ) print("任务状态:", result.status) print("执行步骤:", result.steps)

把它保存为my_task.py，以后双击运行即可。

7. 总结：你刚刚掌握了一项新能力

回顾这趟旅程，你完成了：

在本地电脑配齐 ADB 和 Python 环境
让安卓手机开放了安全、可控的调试权限
成功调用远程大模型 API，驱动手机完成真实操作
掌握了写出高质量自然语言指令的核心方法
学会了快速定位和解决常见问题

Open-AutoGLM 的价值，不在于它能多快地完成一个任务，而在于它把“人机交互”的范式，从“我点，它响应”，变成了“我说，它理解并行动”。它模糊了自动化脚本和人类助手的界限。

下一步，你可以尝试：

让它帮你批量给 10 个微信好友发节日祝福
在电商 App 里自动比价、截图历史价格曲线
为老人定制一个语音指令：“放大字体”“读出短信内容”“打电话给儿子”

技术的意义，从来不是炫技，而是让复杂变简单，让不可能变日常。你现在，已经站在了这个日常的起点。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

自然语言控制安卓手机？Open-AutoGLM新手入门全攻略