实测智谱AI新框架,Open-AutoGLM真能自动点手机?
1. 引言:当大模型开始“动手”操作手机
1.1 技术背景与行业痛点
在移动互联网高度普及的今天,用户每天需要重复大量手机操作:刷短视频、下单外卖、批量点赞、填写表单等。这些任务虽然简单,但耗时且机械。传统自动化工具如按键精灵依赖固定脚本,无法适应界面变化;而RPA(机器人流程自动化)在PC端已成熟,移动端却因系统封闭、UI动态性强而进展缓慢。
直到视觉语言模型(VLM)和智能规划能力的结合,才真正让AI具备“看懂屏幕+理解意图+自主决策”的完整链路。Open-AutoGLM正是这一趋势下的代表性开源项目——它由智谱AI推出,基于9B参数量的AutoGLM-Phone模型,实现了用自然语言驱动AI代理自动操作安卓设备的能力。
1.2 核心价值与创新点
Open-AutoGLM的核心突破在于将多模态感知与动作规划深度融合:
- 多模态理解:通过截图获取屏幕图像,结合OCR与语义解析,识别按钮、输入框、列表项等内容;
- 意图解析:将用户指令(如“打开小红书搜美食”)转化为结构化任务目标;
- 动作规划:基于当前界面状态,推理出下一步应执行的操作(点击、滑动、输入等);
- ADB控制:通过Android Debug Bridge实现对真实设备或模拟器的非侵入式操控;
- 安全机制:敏感操作需人工确认,支持验证码场景下的人工接管。
这使得开发者无需编写任何代码,即可构建一个能“自己用手机”的AI助手。
2. 系统架构与工作原理
2.1 整体架构设计
Open-AutoGLM采用典型的客户端-服务端分离架构:
[用户指令] ↓ [本地控制端] → 发送指令 + 接收屏幕截图 ↓ [云服务器] ← ADB反向映射 ← [安卓手机] ↑ [AutoGLM-Phone模型] ← vLLM推理引擎- 本地控制端:运行在开发者电脑上,负责连接手机、采集屏幕、调用远程API;
- 云服务端:部署在GPU服务器上,加载AutoGLM-Phone-9B模型,接收请求并返回操作指令;
- 通信协议:通过HTTP API传递截图、文本指令和动作命令;
- 执行方式:所有操作最终通过ADB命令下发至手机。
2.2 工作流程拆解
整个自动化过程可分为五个阶段:
- 指令输入:用户提供自然语言指令,例如:“打开抖音搜索某博主并关注”;
- 环境感知:系统通过
adb shell screencap截取当前屏幕,并上传至云端; - 多模态理解:模型同时处理图像与文本,理解当前界面元素及其功能;
- 动作规划:模型输出下一步操作类型(click/tap/swipe/type)、坐标或控件ID;
- 执行反馈:本地端执行ADB命令后再次截图,形成闭环迭代,直至任务完成。
该流程本质上是一个基于视觉的状态机导航系统,每一步都依赖对当前“屏幕状态”的准确理解。
3. 部署实践:从零搭建AI手机代理
3.1 环境准备清单
| 组件 | 要求 |
|---|---|
| 云服务器 | Ubuntu 20.04/22.04,CUDA 12.8,Python 3.10 |
| GPU显卡 | 显存≥32GB(推荐A100-40GB) |
| 本地电脑 | Windows/macOS,Python 3.10+ |
| 安卓设备 | Android 7.0+,开启USB调试 |
| 工具依赖 | ADB、Conda、Git、vLLM |
提示:建议使用AutoDL、ModelScope Studio等平台租用临时GPU实例进行测试,成本可控。
3.2 搭建云服务端(模型推理环境)
步骤1:创建虚拟环境并安装依赖
# 创建Python 3.10环境 conda create -n autoglm python=3.10 conda activate autoglm # 克隆代码仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(使用国内源加速) pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .步骤2:启动vLLM推理服务
python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/AutoGLM-Phone-9B \ --tensor-parallel-size 1 \ --max-model-len 8192 \ --gpu-memory-utilization 0.9 \ --port 8800--model可指定本地路径或HuggingFace/ModelScope模型标识;--max-model-len必须足够大以支持长上下文对话;- 启动后可通过
http://<server_ip>:8800/v1/models验证服务是否正常。
3.3 配置本地控制端(ADB连接管理)
步骤1:安装ADB工具
Windows用户可下载platform-tools并添加到PATH;macOS用户可通过Homebrew安装:
brew install android-platform-tools验证安装:
adb version # 输出类似:Android Debug Bridge version 1.0.41步骤2:手机端设置
- 进入「设置」→「关于手机」→连续点击“版本号”7次,启用开发者模式;
- 返回「设置」→「开发者选项」→开启“USB调试”;
- 使用USB线连接电脑,手机弹出授权提示时选择“始终允许”。
步骤3:安装ADB Keyboard(关键!)
由于AI需要输入文字(如搜索关键词),必须使用ADB Keyboard作为默认输入法:
- 下载 ADBKeyboard.apk 并安装;
- 进入「语言与输入法」→「默认键盘」→选择“ADB Keyboard”。
否则模型无法执行文本输入类操作。
4. 运行测试:让AI真正“动手”
4.1 命令行方式启动任务
在本地终端执行以下命令:
python main.py \ --device-id "your_device_id" \ --base-url http://<cloud_server_ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索‘北京美食’并点赞第一条笔记"参数说明:
--device-id:通过adb devices获取的设备序列号;--base-url:云服务器公网IP及端口;- 最后的字符串为自然语言指令。
4.2 Python API方式集成
对于更复杂的集成需求,可使用SDK方式调用:
from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接 conn = ADBConnection() conn.connect("192.168.1.100:5555") # 支持WiFi连接 # 创建AI代理 agent = PhoneAgent( base_url="http://<cloud_server_ip>:8800/v1", model_name="autoglm-phone-9b", device_id="your_device_id" ) # 执行任务 result = agent.run("进入微信,找到张三,发送消息‘你好’") print(result)4.3 实际运行效果观察
成功运行后,你会看到:
- 手机自动解锁(需关闭锁屏密码);
- 自动打开目标APP(如小红书、抖音);
- 自动执行搜索、点击、滑动、输入等操作;
- 终端持续输出日志,如:
[INFO] 当前界面检测到搜索框 -> 输入“北京美食” [INFO] 检测到搜索结果列表 -> 点击第一个item [INFO] 检测到点赞按钮 -> 执行点击操作
整个过程完全无需人工干预,仅靠一句自然语言指令驱动。
5. 关键问题与优化建议
5.1 常见问题排查表
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| ADB连接显示 unauthorized | 未授权调试 | 重新插拔USB线,手机端确认授权 |
| 设备无法识别 | USB线仅充电 | 更换数据传输线 |
| 模型无响应 | 显存不足或端口未开放 | 检查nvidia-smi,确认防火墙放行 |
| 文本无法输入 | ADB Keyboard未启用 | 进入设置切换默认输入法 |
| 操作失败频繁 | 屏幕分辨率不匹配 | 调整截图缩放比例或校准坐标系 |
5.2 性能优化建议
提升推理速度:
- 使用Tensor Parallelism多卡并行;
- 启用PagedAttention减少显存碎片;
- 缓存历史状态避免重复分析。
增强鲁棒性:
- 添加超时重试机制;
- 对关键节点(如登录页)设置人工确认;
- 记录操作轨迹用于回溯调试。
降低延迟:
- 使用WiFi ADB替代USB,减少物理限制;
- 在边缘设备部署轻量化模型(未来方向)。
6. 应用场景与扩展潜力
6.1 典型应用场景
| 场景 | 描述 |
|---|---|
| 外卖自动下单 | “帮我点一份昨天晚上的套餐” |
| 社交媒体运营 | 批量发布内容、互动评论、涨粉操作 |
| 移动测试自动化 | 替代Appium进行UI遍历测试 |
| 老人辅助工具 | 语音指令代操作复杂APP |
| 数据采集 | 自动翻页抓取APP内非公开数据 |
6.2 可扩展方向
- 多设备协同:支持同时控制多台手机,实现群控操作;
- 自定义微调:基于特定APP数据微调模型,提高准确率;
- 离线部署:压缩模型至7B以下,适配消费级显卡;
- Web控制台:开发图形化界面,降低使用门槛;
- 长期记忆:引入向量数据库记录用户习惯,实现个性化操作。
7. 总结
Open-AutoGLM作为首个开源的手机端AI Agent框架,标志着大模型从“能说会写”迈向“能动手操作”的重要一步。其核心优势在于:
- 全链路自动化:从自然语言理解到动作执行闭环;
- 无需Root权限:基于ADB标准接口,兼容性强;
- 私有化部署:数据不出本地,安全性高;
- 低成本接入:配合AutoDL等平台,个人开发者也能快速体验。
尽管目前仍存在对网络稳定性、显存要求高等限制,但随着模型轻量化和边缘计算的发展,这类技术有望成为下一代移动生产力工具的核心组件。
无论是用于个人效率提升,还是企业级自动化流程建设,Open-AutoGLM都提供了一个极具想象力的技术起点。
8. 参考资料
- GitHub仓库:https://github.com/zai-org/Open-AutoGLM
- ModelScope模型页:https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
- vLLM官方文档:https://docs.vllm.ai/
- ADB官方指南:https://developer.android.com/studio/command-line/adb
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。