news 2026/4/8 12:33:36

Open-AutoGLM定位服务代理:位置共享执行自动化部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM定位服务代理:位置共享执行自动化部署

Open-AutoGLM定位服务代理:位置共享执行自动化部署

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI帮你操作手机?不是简单的语音助手,而是真正“看懂”屏幕、理解界面、自动点击滑动,像真人一样完成复杂任务。这就是Open-AutoGLM的核心能力。

它是由智谱推出的开源手机端AI Agent框架,基于强大的视觉语言模型(VLM),结合 ADB(Android Debug Bridge)实现对安卓设备的全自动化控制。用户只需要用自然语言下达指令,比如“打开小红书搜美食”、“查一下明天北京飞上海的 cheapest 航班”,系统就能自动解析意图、识别当前屏幕内容、规划操作路径,并一步步执行下去——从打开App到输入关键词,再到点击目标按钮,全程无需人工干预。

这背后的技术组合非常巧妙:

  • 多模态感知:通过截图+VLM 理解屏幕上有什么、按钮在哪、当前处于哪个页面;
  • 动作决策:基于上下文和目标,生成下一步该点哪里、怎么滑动的操作序列;
  • ADB 控制:绕过官方API限制,直接在物理或模拟设备上执行触摸、输入、返回等操作;
  • 人机协同机制:遇到敏感操作(如支付)、验证码或登录弹窗时,支持暂停并交由人工处理。

整个系统分为两部分:云端运行的大模型推理服务,负责“大脑”级别的理解和规划;本地或远程的控制端(即 Open-AutoGLM 客户端),负责与手机通信并执行具体动作。本文将重点讲解如何在本地电脑连接真实安卓设备,完成整套自动化代理的部署与调用。


2. 环境准备:搭建基础运行平台

要让 AI 成功接管你的手机,首先得把软硬件环境配好。这一节我们来一步步准备好所有必需组件。

2.1 操作系统与Python版本

目前 Open-AutoGLM 主要支持主流桌面操作系统:

  • Windows 10/11
  • macOS(Intel 或 Apple Silicon)

不推荐使用 Linux 桌面环境进行初体验,虽然技术上可行,但ADB权限管理和图形调试相对复杂。

建议安装Python 3.10 或更高版本。较低版本可能导致依赖包冲突。你可以通过以下命令检查当前 Python 版本:

python --version # 或 python3 --version

如果未安装合适版本,请前往 python.org 下载安装。

2.2 安装 ADB 工具

ADB 是 Android SDK 的一部分,用于调试和控制安卓设备。我们需要单独下载 Platform Tools 包。

Windows 用户配置步骤:
  1. 前往 Android 开发者官网 下载platform-tools压缩包。
  2. 解压到一个固定目录,例如C:\platform-tools
  3. 设置环境变量:
    • 按下Win + R,输入sysdm.cpl回车;
    • 点击“高级”选项卡 → “环境变量”;
    • 在“系统变量”中找到Path,点击编辑 → 新建 → 添加刚才的路径(如C:\platform-tools);
  4. 打开新的命令提示符窗口,运行:
adb version

若输出类似Android Debug Bridge version 1.xx.xx,说明配置成功。

macOS 用户配置方法:

打开 Terminal,执行以下命令(假设你把文件解压到了 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效,可以将其写入 shell 配置文件:

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

再次运行adb version验证是否正常。


3. 手机端设置:开启调试与输入法

现在切换到手机端,做一些必要的前置配置。

3.1 开启开发者模式

进入手机“设置”应用:

  • 进入关于手机
  • 找到“版本号”或“内部版本号”,连续点击 7 次;
  • 系统会提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主菜单:

  • 进入开发者选项(通常位于“系统”或“更多设置”中);
  • 找到并勾选USB 调试
  • 当你首次通过 USB 连接电脑时,手机可能会弹出授权对话框,请点击“允许”。

⚠️ 注意:某些厂商(如小米、华为)可能还需要额外开启“USB调试(安全设置)”或关闭“MIUI优化”,否则无法稳定连接。

3.3 安装 ADB Keyboard 输入法

由于 AI Agent 不能直接调用系统输入法打字,必须借助一个特殊的虚拟键盘:ADB Keyboard

  1. 前往 GitHub 或可信渠道下载ADBKeyboard.apk安装包;
  2. 在手机上允许“未知来源应用安装”后完成安装;
  3. 进入设置 → 语言与输入法 → 默认键盘/当前输入法
  4. 切换为ADB Keyboard

这样,后续所有文本输入(如搜索词、账号密码)都可以通过 ADB 命令发送,无需手动打字。


4. 部署 Open-AutoGLM 控制端

准备工作完成后,就可以开始部署本地控制程序了。

4.1 克隆项目代码

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目是智谱官方开源的客户端实现,包含了完整的 ADB 封装、指令解析和远程调用逻辑。

4.2 安装 Python 依赖

确保你在项目根目录下,然后运行:

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装phone_agent包,便于后续开发调试。

常见依赖包括:

  • torch,transformers: 支持模型加载(尽管本地不运行模型);
  • fastapi,uvicorn: 若需启动本地服务;
  • adbutils,opencv-python: ADB 控制与图像处理;
  • requests: 调用云端 API。

5. 设备连接方式:USB 与 WiFi 双模式

Open-AutoGLM 支持两种设备连接方式:有线 USB 和无线 WiFi。各有优劣,可根据场景选择。

5.1 使用 USB 连接(推荐新手)

这是最稳定的连接方式。

  1. 用数据线将手机连接电脑;
  2. 手机弹出“允许USB调试?”时,点击确认;
  3. 在终端运行:
adb devices

正常情况下你会看到如下输出:

List of devices attached ABCDEF1234567890 device

只要状态显示为device,就表示连接成功。

5.2 使用 WiFi 远程连接(适合远程操控)

如果你希望摆脱数据线束缚,或者想远程控制家里的测试机,可以用 WiFi 模式。

📌 前提:手机和电脑必须在同一局域网内。

步骤如下:

  1. 先用 USB 连接设备;
  2. 在终端执行:
adb tcpip 5555

这会启动 ADB 的 TCP 服务,监听 5555 端口;

  1. 断开 USB 数据线;
  2. 查找手机 IP 地址(一般在“设置 → WLAN → 当前网络详情”中);
  3. 执行连接命令:
adb connect 192.168.x.x:5555

替换192.168.x.x为实际 IP。连接成功后,再次运行adb devices应能看到设备在线。

此后即使重启手机,只要重新执行adb connect即可恢复连接(前提是未重启路由器或更改IP)。


6. 启动 AI 代理:执行自然语言指令

一切就绪!现在我们可以正式让 AI 接管手机。

6.1 命令行快速运行

在项目根目录下,运行以下命令:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备ID,如果是WiFi连接则填写IP:5555格式;
  • --base-url:指向你部署在云服务器上的 vLLM 或其他推理服务地址,格式为http://公网IP:端口/v1
  • --model:指定使用的模型名称,需与服务端注册的一致;
  • 最后的字符串:你要下达的自然语言指令。

一旦运行,程序会:

  1. 截取当前手机屏幕;
  2. 将截图和指令一起发送给云端模型;
  3. 模型返回应执行的动作(如“点击坐标(x,y)”、“输入文字”);
  4. 客户端通过 ADB 执行该动作;
  5. 循环直到任务完成或失败。

6.2 使用 Python API 编程调用

除了命令行,你也可以在自己的脚本中集成 Open-AutoGLM 的功能。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为USB设备启用TCP/IP success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这个 API 非常适合嵌入到自动化测试平台、远程运维系统或企业级 RPA 流程中。


7. 常见问题与排查建议

即使严格按照流程操作,也可能遇到一些意外情况。以下是高频问题及解决方案。

7.1 ADB 无法识别设备

现象:adb devices显示空列表或unauthorized

解决办法:

  • 检查手机是否弹出“允许USB调试”对话框,务必点击“允许”;
  • 更换数据线,有些线仅支持充电;
  • 重启 ADB 服务:
adb kill-server adb start-server
  • 对于华为/荣耀手机,尝试关闭“手机找回”功能;
  • 小米手机需关闭“USB调试(安全设置)”以允许自动授权。

7.2 连接云服务失败(Connection Refused)

现象:程序报错Failed to connect to serverConnection refused

原因分析:

  • 云服务器防火墙未开放对应端口(如 8800);
  • vLLM 服务未绑定公网 IP(默认只监听 127.0.0.1);
  • 安全组规则未放行入站流量。

解决方案:

  • 确保启动 vLLM 时使用--host 0.0.0.0参数;
  • 检查云厂商控制台的安全组策略,添加 TCP 入站规则;
  • 使用curl http://<your-ip>:8800/v1/models测试接口可达性。

7.3 模型响应乱码或无动作

现象:AI 返回看不懂的字符,或长时间无响应。

可能原因:

  • 显存不足导致推理中断;
  • max_model_len设置过小,截断了输出;
  • 模型权重加载错误或 tokenizer 不匹配。

建议做法:

  • 查看服务端日志是否有 OOM(内存溢出)报错;
  • 增加 GPU 显存或降低 batch size;
  • 确保使用与模型配套的 tokenizer 和 config 文件。

7.4 输入中文失败

虽然 ADB Keyboard 支持中文输入,但默认可能只支持英文。

解决方法:

  • 在 ADB Keyboard 设置中启用“中文输入”;
  • 或改用scrcpy配合ime set切换输入法;
  • 临时方案:先手动输入常用词汇,再让 AI 点击“搜索”。

8. 总结

Open-AutoGLM 是一个极具潜力的手机端 AI Agent 开源框架,它将视觉语言模型的能力延伸到了真实的移动设备操作层面。通过 ADB 实现零侵入式的自动化控制,配合自然语言指令解析,使得普通人也能轻松构建属于自己的“数字员工”。

本文带你完成了从环境搭建、手机配置、代码部署到实际调用的完整流程,并介绍了 USB 与 WiFi 两种连接模式以及常见问题的应对策略。无论你是想做自动化测试、批量运营多个账号,还是探索 AI 自主行为的可能性,这套系统都提供了坚实的基础。

更重要的是,它的设计充分考虑了安全性:敏感操作可暂停、验证码场景支持人工介入、远程调试能力完善。这让它不仅适用于个人实验,也具备向企业级应用拓展的潜力。

未来,随着多模态模型的理解能力和动作规划算法的提升,这类手机 AI Agent 有望真正实现“你说我做”的理想交互形态。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 3:16:18

从0开始学语音情感识别,Emotion2Vec+镜像手把手教学

从0开始学语音情感识别&#xff0c;Emotion2Vec镜像手把手教学 1. 为什么语音情感识别值得你花时间学&#xff1f; 你有没有遇到过这些场景&#xff1a; 客服系统听不出你语气里的不耐烦&#xff0c;反复问“请问还有其他问题吗&#xff1f;”在线教育平台无法判断学生是真听…

作者头像 李华
网站建设 2026/4/8 12:16:14

G-Helper:华硕游戏本性能调校神器 - 轻量级控制工具完全指南

G-Helper&#xff1a;华硕游戏本性能调校神器 - 轻量级控制工具完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项…

作者头像 李华
网站建设 2026/4/8 9:35:49

如何贡献GPEN社区?魔搭ModelScope上传流程指南

如何贡献GPEN社区&#xff1f;魔搭ModelScope上传流程指南 GPEN人像修复增强模型镜像 本镜像基于 GPEN人像修复增强模型 构建&#xff0c;预装了完整的深度学习开发环境&#xff0c;集成了推理及评估所需的所有依赖&#xff0c;开箱即用。 1. 镜像环境说明 组件版本核心框架…

作者头像 李华
网站建设 2026/4/7 14:03:34

猫抓浏览器扩展:轻松捕获网页视频资源的实用指南

猫抓浏览器扩展&#xff1a;轻松捕获网页视频资源的实用指南 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到这样的困扰&#xff1a;看到精彩的在线视频却无法下载保存&#xff1f;想要…

作者头像 李华
网站建设 2026/4/4 4:23:57

万物识别-中文-通用领域模型压缩:ONNX转换与量化实战

万物识别-中文-通用领域模型压缩&#xff1a;ONNX转换与量化实战 你有没有遇到过这样的问题&#xff1a;训练好的图像识别模型太大&#xff0c;部署起来卡顿、加载慢&#xff0c;甚至在边缘设备上根本跑不动&#xff1f;今天我们要解决的就是这个痛点——把阿里开源的“万物识…

作者头像 李华
网站建设 2026/4/6 9:41:24

拯救者系列BIOS隐藏功能完全解锁指南:释放硬件全部潜能

拯救者系列BIOS隐藏功能完全解锁指南&#xff1a;释放硬件全部潜能 【免费下载链接】LEGION_Y7000Series_Insyde_Advanced_Settings_Tools 支持一键修改 Insyde BIOS 隐藏选项的小工具&#xff0c;例如关闭CFG LOCK、修改DVMT等等 项目地址: https://gitcode.com/gh_mirrors/…

作者头像 李华