自然语言控制安卓手机?Open-AutoGLM新手入门全攻略
你有没有想过,不用动手点屏幕,只说一句“帮我把微信里的未读消息全标为已读”,手机就自动完成?或者“打开小红书,搜‘上海周末咖啡馆’,截三张图发到钉钉群”——整套操作一气呵成?这不是科幻电影,而是 Open-AutoGLM 正在做的事。
Open-AutoGLM 是智谱开源的手机端 AI Agent 框架,它不靠预设脚本,也不依赖固定界面结构,而是真正“看懂”你的手机屏幕,理解你的自然语言指令,再像真人一样一步步点击、滑动、输入、截图。它把大模型的语义理解能力、视觉语言模型的界面感知能力,和 ADB 的底层操控能力拧成一股绳,让手机第一次拥有了可对话、可委托、可信任的“数字分身”。
这篇教程不讲原理推导,不堆参数配置,只聚焦一件事:让你从零开始,在 30 分钟内,亲手让 AI 第一次替你操作手机。无论你是刚配好 Python 环境的开发者,还是只会用手机拍照的非技术用户,只要按步骤来,就能跑通第一个指令。
1. 先搞明白:它到底能做什么,又不能做什么
在动手前,花两分钟建立一个清晰预期——这能帮你少踩 80% 的坑。
1.1 它能做的三件事(真实、稳定、有边界)
- 精准理解当前界面:不是猜,是“看”。它会实时抓取手机屏幕截图,用视觉语言模型识别按钮文字、图标位置、输入框状态。比如你正在微信聊天页,它能准确指出“+”号在哪、“语音输入”按钮是否高亮。
- 执行复杂多步任务:一条指令背后是完整动作链。“打开淘宝搜‘降噪耳机’并加购第一款”会被拆解为:启动淘宝 → 等待首页加载 → 点击搜索框 → 输入文字 → 点击搜索 → 滑动到第一款商品 → 点击进入详情页 → 找到“加入购物车”按钮 → 点击。
- 安全接管敏感环节:遇到登录页、支付密码框、短信验证码弹窗时,它会主动暂停,把控制权交还给你。你确认后,它才继续——这是设计进骨子里的安全护栏,不是后期补丁。
1.2 它暂时做不到的三件事(坦诚说明,避免失望)
- 不支持 iOS:目前仅适配 Android 7.0+ 设备。iPhone 因系统限制无法通过 ADB 实现同等深度控制。
- 不替代手动精细操作:比如“把这张照片调成胶片风,饱和度+15,阴影提亮 20%”,这类像素级图像编辑不在其能力范围内。它的强项是“界面导航型任务”,不是“创意生产型任务”。
- 不保证 100% 一次成功:手机厂商定制 UI(如小米 HyperOS、华为鸿蒙)可能造成元素识别偏移;网络延迟可能导致截图不同步;极少数应用(如银行类)会主动屏蔽 ADB 截图。但这些情况都有明确报错和人工接管机制,不会“卡死”或“乱点”。
一句话总结能力边界:
它是一个聪明、谨慎、手脚麻利的“数字助理”,擅长处理你每天重复做的那些“点一点、输一输、找一找”的事;但它不是万能遥控器,更不是越狱工具。用对场景,它就是效率倍增器;硬塞给它不匹配的任务,它会礼貌地告诉你:“这个,得您来一下。”
2. 准备工作:四件套配齐,5 分钟搞定
所有操作都在你自己的电脑和手机上完成,不需要云服务器、不需要 GPU、不需要烧钱买算力。我们采用最轻量的方案:本地控制端 + 远程 API 调用(推荐 ModelScope 或智谱 BigModel),零显存压力。
2.1 你的电脑需要什么
- 操作系统:Windows 10/11 或 macOS Monterey 及以上(M1/M2/M3 芯片完全兼容)
- Python 版本:3.10 或 3.11(强烈不建议用 3.12,部分依赖尚未适配)
- 一个空文件夹:比如
D:\open-autoglm或~/Projects/open-autoglm,后面所有操作都放这里
2.2 你的安卓手机需要什么
- 系统版本:Android 7.0(Nougat)及以上(绝大多数 2016 年后发布的机型都满足)
- 一根靠谱的数据线:重点提示:很多失败案例源于劣质数据线只充电不传数据。建议使用原装线,或明确标注“支持数据传输”的 Type-C 线(6A 规格更稳)
- 一个干净的测试环境:首次运行建议关闭手机上的“应用锁”“隐私保护屏”等第三方安全软件,避免干扰 ADB 权限
2.3 安装 ADB 工具(真正的 5 分钟)
ADB(Android Debug Bridge)是连接电脑和手机的“桥梁”,它负责截图、点击、输入。安装它,比装微信还简单。
Windows 用户
- 访问 Android SDK Platform-Tools 官网 下载 ZIP 包
- 解压到任意位置,例如
C:\platform-tools - 配置环境变量:
- 按
Win + R,输入sysdm.cpl→ “高级” → “环境变量” - 在“系统变量”中找到
Path→ “编辑” → “新建” → 粘贴你解压的路径C:\platform-tools
- 按
- 打开新命令提示符(cmd),输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功
macOS 用户
- 同样下载 ZIP 包,解压到
~/Downloads/platform-tools - 打开终端,运行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc- 输入
adb version验证
验证关键一步:
不要跳过adb version!很多后续问题根源都是 ADB 没装对。如果提示command not found,请回头检查路径是否拼写错误、是否重启了终端。
3. 手机设置:三步开启“被操控”权限
手机端设置是成功率最高的环节,只需三步,每步都有明确反馈。
3.1 开启开发者选项(10 秒搞定)
- 进入手机设置 → 关于手机
- 连续快速点击“版本号”7 次(部分机型需 10 次)
- 屏幕会弹出提示:“您现在处于开发者模式”或“开发者选项已启用”
小技巧:如果找不到“关于手机”,直接在设置顶部搜索框输入“开发者”即可直达。
3.2 开启 USB 调试(核心权限)
- 返回设置主菜单,进入开发者选项
- 找到并开启“USB 调试”
- 小米/OPPO/ vivo 用户额外注意:向下滚动,务必同时开启“USB 调试(安全设置)”和“USB 安装”,否则无法安装后续工具
3.3 安装 ADB Keyboard(解决输入难题)
手机自带输入法无法被 ADB 控制,必须换一个。我们用开源项目 ADBKeyboard:
- 电脑浏览器访问 ADBKeyboard.apk 下载页
- 下载 APK 文件
- 用数据线连接手机,将 APK 文件复制到手机内部存储根目录(如
Phone/Download/) - 在手机上找到该文件,点击安装(若提示“禁止安装未知来源应用”,请前往设置 → 安全 → 未知来源应用安装 → 允许当前应用)
安装后必做:
进入手机设置 → 语言与输入法 → 当前输入法,将默认输入法切换为“ADB Keyboard”。这是后续所有文字输入(如搜索关键词)的前提。
4. 部署控制端:克隆、安装、连设备
现在,你的电脑和手机已“握手成功”,下一步是把 Open-AutoGLM 的控制大脑装上。
4.1 克隆代码仓库
确保你在之前准备好的空文件夹里(如D:\open-autoglm),打开命令行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM没有安装 Git?
官网下载安装包:https://git-scm.com/downloads,安装时勾选 “Add Git to PATH” 即可。
4.2 安装 Python 依赖(安静、快速、无报错)
# 推荐使用清华镜像源,国内下载飞快 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .常见问题直击:
如果pip install -e .报错error: Microsoft Visual C++ 14.0 or greater is required(Windows):
请去微软官网下载安装 Build Tools for Visual Studio,勾选“C++ build tools”即可,无需安装整个 VS。
4.3 连接你的手机(USB 或 WiFi)
USB 连接(新手首选,最稳)
- 用数据线连接手机和电脑
- 手机上弹出“允许 USB 调试吗?” → 勾选“始终允许”,点击确定
- 电脑命令行输入:
adb devices正确输出示例:
List of devices attached 8B2X123456789ABC devicedevice状态即表示连接成功。前面那串字母数字就是你的device-id。
WiFi 连接(适合想摆脱线缆的用户)
- 先用 USB 连接,运行:
adb tcpip 5555- 断开 USB 线,确保手机和电脑在同一 WiFi 下
- 查看手机 IP 地址(设置 → 关于手机 → 状态信息 → IP 地址),假设为
192.168.1.105 - 运行:
adb connect 192.168.1.105:5555成功提示:connected to 192.168.1.105:5555
5. 运行第一个指令:从“你好”到“真干活”
万事俱备,现在用一条最简单的指令,见证奇迹。
5.1 获取免费 API Key(两分钟,零成本)
我们不自己部署大模型,而是调用 ModelScope(魔搭)的公开 API,它提供ZhipuAI/AutoGLM-Phone-9B模型,完全免费,无需申请配额。
- 访问 ModelScope 官网,注册/登录账号
- 点击右上角头像 → “个人中心” → “API 密钥” → “创建新密钥”
- 复制生成的密钥(以
sk-开头的一长串字符),妥善保存
5.2 执行你的第一条自然语言指令
在Open-AutoGLM目录下,运行以下命令(请将<your-device-id>替换为adb devices显示的 ID,将<your-api-key>替换为你刚复制的密钥):
python main.py \ --device-id <your-device-id> \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey <your-api-key> \ "打开设置,搜索‘蓝牙’,然后打开蓝牙开关"执行时你会看到什么?
- 终端会先打印
Connecting to device...- 然后出现
Taking screenshot...(手机屏幕会瞬间闪一下,这是在截图)- 接着是
Analyzing screen with VLM...(模型正在“看图说话”)- 最后是
Executing action: CLICK on (x=520, y=310)(它找到了“蓝牙”开关并点击)- 整个过程约 15-30 秒,取决于网络和手机性能。
成功标志:你的手机设置页自动打开了,蓝牙开关已变为“开启”状态。
5.3 换个更有趣的指令试试
别停!马上再试一个带输入的:
python main.py \ --device-id <your-device-id> \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey <your-api-key> \ "打开微信,找到‘张三’的聊天窗口,发送一条消息:‘今天会议改到下午三点了’"为什么能发消息?
因为 ADBKeyboard 已就位,模型识别出输入框后,会通过 ADB 发送文本,再模拟回车键。整个过程,你只需看着,不用碰手机。
6. 进阶技巧:让 AI 更懂你、更可靠
跑通第一条指令只是开始。下面这些技巧,能让你从“能用”走向“好用”。
6.1 提示词(Prompt)怎么写才高效?
模型不是魔法,它依赖你给的指令质量。记住三个原则:
- 具体 > 模糊:❌ “帮我查一下天气” → “打开墨迹天气 App,定位到北京市朝阳区,查看未来 24 小时温度曲线”
- 分步 > 一步到位:❌ “订一张明天从北京到上海的高铁票” → “打开 12306 App,登录我的账号,查询明日 G101 次列车余票,选择二等座下单”
- 带约束 > 无约束:❌ “给我找几个好玩的 App” → “在应用商店搜索‘解谜游戏’,只看评分 4.5 以上的前 3 个,截图它们的详情页”
6.2 遇到问题?先看这三处日志
当指令没反应或报错,不要慌,直接看终端最后 10 行输出:
Screenshot failed→ 检查手机是否锁屏、是否开启了“防截屏”功能(部分金融 App 会强制开启)Element not found→ 模型没在当前截图里找到目标按钮。尝试先手动打开目标 App,再运行指令ADB command failed→ 数据线接触不良或 ADB 服务异常。拔插数据线,或运行adb kill-server && adb start-server
6.3 用 Python API 写自己的小工具
不想每次都敲长命令?用几行 Python 封装:
from phone_agent.main import run_agent # 一行代码,发起任务 result = run_agent( device_id="8B2X123456789ABC", base_url="https://api-inference.modelscope.cn/v1", model="ZhipuAI/AutoGLM-Phone-9B", api_key="sk-xxxxxxxxxxxxxxxx", instruction="打开相机,拍一张照片,保存到相册" ) print("任务状态:", result.status) print("执行步骤:", result.steps)把它保存为my_task.py,以后双击运行即可。
7. 总结:你刚刚掌握了一项新能力
回顾这趟旅程,你完成了:
- 在本地电脑配齐 ADB 和 Python 环境
- 让安卓手机开放了安全、可控的调试权限
- 成功调用远程大模型 API,驱动手机完成真实操作
- 掌握了写出高质量自然语言指令的核心方法
- 学会了快速定位和解决常见问题
Open-AutoGLM 的价值,不在于它能多快地完成一个任务,而在于它把“人机交互”的范式,从“我点,它响应”,变成了“我说,它理解并行动”。它模糊了自动化脚本和人类助手的界限。
下一步,你可以尝试:
- 让它帮你批量给 10 个微信好友发节日祝福
- 在电商 App 里自动比价、截图历史价格曲线
- 为老人定制一个语音指令:“放大字体”“读出短信内容”“打电话给儿子”
技术的意义,从来不是炫技,而是让复杂变简单,让不可能变日常。你现在,已经站在了这个日常的起点。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。