2026年智能终端趋势入门必看:Open-AutoGLM+ADB远程控制教程
你有没有想过,手机能真正听懂你说话,并替你点开App、搜索内容、完成关注——全程不用碰屏幕?这不是科幻电影,而是正在落地的现实。随着多模态AI在端侧加速演进,2026年最值得关注的智能终端新范式,正从“语音助手”迈向“视觉-语言-动作”全链路自主代理。而Open-AutoGLM,正是这一趋势中首个开源、可本地部署、支持真机远程操控的轻量级手机AI Agent框架。
它不依赖厂商预装系统,不绑定特定芯片,也不需要Root权限;只需一台普通安卓手机、一台电脑和一条网络连接,就能让AI“看见”你的屏幕、“理解”你的指令、“动手”执行操作。本文不讲概念、不堆参数,只带你从零开始,用真实步骤跑通整个流程:从环境配置、设备连接,到发出第一条自然语言指令,亲眼见证AI接管手机的全过程。
1. Open-AutoGLM是什么:不是另一个LLM,而是一个会“看”会“动”的手机AI助理
Open-AutoGLM不是传统意义上的大语言模型,而是一套面向安卓终端的视觉-语言-动作协同代理框架。它由智谱AI开源,核心目标很明确:让AI真正成为手机上的“数字双手”。
1.1 它和普通AI助手有本质区别
- 普通语音助手(如Siri/小爱同学):只能响应预设指令,无法理解当前界面状态,更不能跨App连续操作。
- 纯文本Agent(如AutoGen):擅长推理和规划,但缺乏对真实设备界面的感知能力,属于“纸上谈兵”。
- Open-AutoGLM:三者融合——用视觉语言模型(VLM)实时解析手机屏幕截图,用LLM理解用户自然语言意图,再通过ADB生成并执行点击、滑动、输入等底层操作指令。它像一个坐在你手机旁、眼睛盯着屏幕、手指随时准备点击的AI同事。
1.2 Phone Agent:框架落地的具体形态
Phone Agent是基于Open-AutoGLM构建的可运行实例,也是我们本教程实际部署的对象。它的能力链条非常清晰:
- 看:每秒截取手机屏幕,送入视觉语言模型,识别按钮、文字、图标、布局结构;
- 想:将截图+OCR文字+用户指令一起输入LLM,进行多步任务分解(例如:“搜美食”→先找搜索框→输入关键词→点搜索→浏览结果);
- 做:调用ADB命令,在真实设备上模拟触摸、长按、返回、输入等操作;
- 控:内置安全机制——遇到登录页、支付页、验证码弹窗时自动暂停,等待人工确认;所有敏感操作(如删除短信、拨打电话)默认禁用,需显式授权。
这意味着,你不需要写一行自动化脚本,也不需要学习XPath或UI Automator。你只需要说:“把微信里昨天收到的那张发票截图发给财务群”,AI就能自己打开微信、翻聊天记录、定位图片、长按转发、选择群聊、点击发送。
2. 本地控制端搭建:四步完成环境准备与设备连接
整个控制流程分两部分:云端运行AI模型(你可自建或使用他人提供的API服务),本地电脑作为“指挥中心”负责截图、传图、接收指令、下发ADB命令。本节聚焦本地端——这是你亲手掌控AI代理的第一步。
2.1 硬件与基础环境检查
请确认以下四项均已就绪:
- 一台运行 Windows 或 macOS 的电脑(推荐 macOS,ADB兼容性更稳定)
- Python 3.10 或更高版本(运行
python --version验证) - 一部 Android 7.0 及以上版本的真机(模拟器仅限调试,真机才能体现真实体验)
- ADB 工具已安装并加入系统 PATH
ADB 是什么?
它是 Android Debug Bridge 的缩写,是谷歌官方提供的命令行工具,允许电脑与安卓设备通信。Open-AutoGLM 不通过蓝牙或Wi-Fi直连,而是复用这套成熟、稳定、无需额外权限的调试通道。你不需要 Root 手机,也不需要开启“USB安装”等高危选项。
2.2 ADB 环境配置(Windows/macOS双路径)
Windows 用户(图形化操作,零命令行压力)
- 前往 Android SDK Platform-Tools 官网 下载最新 ZIP 包
- 解压到任意文件夹,例如
C:\platform-tools - 按
Win + R输入sysdm.cpl→ “高级”选项卡 → “环境变量” - 在“系统变量”中找到
Path→ “编辑” → “新建” → 粘贴你解压的完整路径(如C:\platform-tools) - 打开新命令提示符,输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功
macOS 用户(终端一行命令)
# 假设你把 platform-tools 解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version # 应显示版本号注意:如果使用 Fish Shell 或 Bash,请将
~/.zshrc替换为对应配置文件(如~/.config/fish/config.fish)
2.3 手机端设置:三步打开“被控制权”
这三步必须手动完成,且只需一次:
开启开发者模式
进入「设置」→「关于手机」→ 连续点击「版本号」7次,直到弹出“您现在处于开发者模式”提示启用 USB 调试
返回「设置」→「系统」→「开发者选项」→ 找到并开启「USB调试」
(部分国产机型路径为:设置 → 更多设置 → 开发者选项)安装并启用 ADB Keyboard(关键!)
- 下载 ADB Keyboard APK(v1.3+)
- 在手机上安装该APK
- 进入「设置」→「语言与输入法」→「虚拟键盘」→ 将「ADB Keyboard」设为默认输入法
为什么必须这一步?因为 Open-AutoGLM 需要向任意App输入文字(如搜索关键词),而标准ADB
input text命令在多数安卓版本中已被限制。ADB Keyboard 绕过系统限制,让AI真正“打字”。
2.4 克隆代码 & 安装依赖:5分钟完成控制端部署
打开终端(macOS/Linux)或命令提示符(Windows),依次执行:
# 1. 克隆官方仓库(注意:不是 fork,是原仓) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(强烈推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装全部依赖(含ADB封装、VLM适配器、HTTP客户端) pip install -r requirements.txt pip install -e . # 安装为可编辑包,便于后续调试此时,你的本地控制端已具备完整能力:截图、传图、调用远程API、解析响应、生成ADB命令、执行操作。
3. 设备连接实战:USB直连与WiFi远程双模式详解
Open-AutoGLM 支持两种连接方式。USB适合首次调试,稳定可靠;WiFi适合日常使用,摆脱线缆束缚。二者本质相同,只是ADB的通信通道不同。
3.1 USB连接:新手第一课,1分钟验证通路
- 用原装数据线将手机连接电脑
- 手机弹出“允许USB调试吗?” → 勾选“始终允许”,点击确定
- 在终端运行:
adb devices正确输出示例:
List of devices attached 8A9X123456789ABC device其中8A9X123456789ABC就是你的设备ID,后续命令中--device-id参数就填这个。
❗ 如果显示
unauthorized,请检查手机是否点了“允许”;如果为空,尝试更换USB线或接口,或重启ADB服务:adb kill-server && adb start-server
3.2 WiFi远程连接:摆脱线缆,实现真正“隔空操控”
前提:手机与电脑在同一局域网(如都连着家里的Wi-Fi)。
第一步:用USB临时建立信任(仅需一次)
# 1. 用USB连好手机后执行 adb tcpip 5555 # 2. 断开USB线 # 3. 查看手机IP(设置 → 关于手机 → 状态 → IP地址,或用 adb shell ip addr) # 通常形如 192.168.1.102 adb connect 192.168.1.102:5555成功后,adb devices将显示192.168.1.102:5555 device
第二步:永久化WiFi连接(可选但推荐)
每次重启手机后,WiFi ADB会断开。你可以在手机上安装 ADB WiFi 等免Root工具,一键开启持久化TCP/IP监听,之后只需adb connect 手机IP:5555即可。
安全提醒:ADB默认无密码,WiFi连接仅建议在可信内网使用。如需公网暴露,请务必配合反向代理+身份认证(如Nginx Basic Auth),本教程不展开。
4. 启动AI代理:用一句话指令,让AI真正“动手”
一切就绪。现在,你将发出第一条自然语言指令,见证AI如何理解、规划、执行。
4.1 命令行快速启动(推荐新手)
确保你已获取两个关键信息:
--device-id:你的设备ID(USB)或IP:5555(WiFi)--base-url:指向你部署好的云端模型API(格式:http://YOUR_SERVER_IP:8800/v1)
云端模型部署说明(简版):
Open-AutoGLM 默认对接 vLLM 推理服务。你可用vllm.entrypoints.api_server启动autoglm-phone-9b模型(需GPU)。若暂无服务器,可先使用社区公开测试API(非本教程重点,详见GitHub README)。
执行以下命令(替换尖括号内容):
python main.py \ --device-id "192.168.1.102:5555" \ --base-url "http://192.168.1.200:8800/v1" \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘北京咖啡探店’,进入第一个笔记,点赞并收藏"你会看到终端逐行输出:
[INFO] 截取屏幕 → 上传至VLM → 识别到‘搜索框’图标[INFO] LLM规划:点击搜索框 → 输入‘北京咖啡探店’ → 点击搜索按钮[INFO] 执行 adb shell input tap 520 180[INFO] 执行 adb shell am broadcast -a ADB_INPUT_TEXT --es msg '北京咖啡探店'- ……
[SUCCESS] 任务完成:已点赞并收藏第1篇笔记
整个过程约15–45秒,取决于网络延迟与模型响应速度。
4.2 Python API集成:嵌入你自己的工具链
如果你希望将Phone Agent能力集成进已有项目(如自动化测试平台、客服工单系统),可直接调用其Python SDK:
from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent # 1. 初始化ADB连接管理器 conn = ADBConnection() # 2. 连接设备(支持USB ID或WiFi地址) success, msg = conn.connect("192.168.1.102:5555") print(f"连接结果:{msg}") # 3. 初始化AI代理(指定远程模型地址) agent = PhoneAgent( base_url="http://192.168.1.200:8800/v1", model_name="autoglm-phone-9b", device_id="192.168.1.102:5555" ) # 4. 发起任务(阻塞式,返回完整执行日志) result = agent.run("截图当前屏幕,保存为‘home_screenshot.png’") print(result.summary) # 如:"已成功截图并保存至 /tmp/home_screenshot.png"该API设计遵循“最小侵入”原则:不修改ADB底层,不劫持系统服务,所有操作均通过标准ADB命令完成,完全可控、可审计、可回滚。
5. 故障排查指南:90%的问题,三步定位解决
即使配置完美,实操中仍可能遇到异常。以下是高频问题与直击要害的解决方案:
5.1 ADB连接类问题
| 现象 | 根本原因 | 速查命令 | 解决方案 |
|---|---|---|---|
adb devices无输出 | USB驱动未安装/USB调试未开启 | lsusb | grep android(macOS/Linux) | 重装手机厂商USB驱动;确认开发者选项已开启 |
显示unauthorized | 手机未点“允许” | — | 拔插USB线,手机弹窗勾选“始终允许” |
connection refused(WiFi) | 手机未开启TCP/IP监听 | adb usb→adb tcpip 5555 | 先USB连上,再执行adb tcpip 5555 |
5.2 AI执行类问题
| 现象 | 根本原因 | 关键线索 | 解决方案 |
|---|---|---|---|
| 模型返回乱码或空响应 | vLLM启动参数错误 | 日志中出现max_model_len超限警告 | 检查启动命令是否包含--max-model-len 8192,显存是否≥16GB |
| AI识别错按钮位置 | 屏幕截图模糊/旋转异常 | adb shell screencap -p /sdcard/screen.png→ 下载查看 | 在main.py中添加--scale 1.0强制原始分辨率截图 |
| 输入文字失败(显示方块) | ADB Keyboard未设为默认输入法 | 手机「语言与输入法」中未启用 | 进入设置 → 语言与输入法 → 启用并设为默认 |
5.3 安全与稳定性提示
- 敏感操作默认关闭:删除短信、拨打电话、访问通讯录等指令会被自动拦截,日志中明确提示
Blocked dangerous action: delete_sms - 人工接管机制:当检测到登录页、支付页、验证码弹窗时,AI会停止执行并输出
Waiting for human confirmation...,你可在终端输入y继续,或n中止 - 超时保护:单任务最长执行120秒,超时自动终止,防止死循环占用设备
6. 总结:这不是玩具,而是智能终端演进的起点
回顾整个流程,你其实只做了五件事:装ADB、开调试、装输入法、克隆代码、运行命令。没有编译内核,没有刷机,没有复杂配置。但结果是——你的手机第一次真正“听懂”了你,并“动手”完成了任务。
Open-AutoGLM的价值,不在于它多强大,而在于它多“实在”。它把前沿的多模态AI,装进了一个可运行、可调试、可定制、可嵌入的轻量框架里。它证明了一件事:2026年的智能终端,不再只是被动响应的“屏”,而会成为主动理解、主动服务、主动协作的“端”。
下一步,你可以:
- 尝试更复杂的指令:“对比美团和大众点评上‘上海本帮菜’前三名的评分与人均,生成对比表格发我微信”
- 将它接入Home Assistant,用语音控制手机完成智能家居联动
- 修改
agent.py,为电商App定制专属操作流(如自动领券、比价、下单)
技术终将下沉为工具,而工具的意义,是让人更少地操作,更多地思考。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。