Open-AutoGLM一键部署指南,快速体验AI手机助理
1. 为什么你需要一个能“自己用手机”的AI?
你有没有过这样的时刻:
- 想批量给十个抖音博主点赞,却要反复点开、滑动、点击,手指酸了还没做完;
- 让AI帮你订外卖,结果它只能给你写一段文字描述,真正下单还得你自己来;
- 看到别人用豆包手机助手自动抢演唱会门票,而你的AI还在聊天框里打字?
Open-AutoGLM 就是来解决这个问题的——它不是另一个“会说话”的大模型,而是一个真正能看、能想、能点、能输、能操作手机的AI助理。
它不依赖APP内嵌SDK,不调用厂商私有接口,也不需要root权限。只要一部Android 7.0+的真机,连上电脑或WiFi,你就能用一句自然语言,比如:
“打开小红书,搜‘上海咖啡探店’,点开最新发布的笔记,截图发到微信文件传输助手”
AI就会自动完成:解锁屏幕 → 启动小红书 → 输入关键词 → 点击搜索 → 滑动浏览 → 定位最新笔记 → 截图 → 切换微信 → 打开文件传输助手 → 发送图片。
整个过程无需你碰一下手机,就像请了一个24小时在线、永不手抖、不知疲倦的数字同事。
本文不讲原理、不堆参数,只聚焦一件事:如何在30分钟内,从零开始跑通Open-AutoGLM,亲眼看到AI替你点开APP、输入文字、完成操作。所有步骤均经实测验证,适配Windows/macOS本地控制端 + AutoDL云GPU服务端组合,避坑提示已融入每一步。
2. 部署前必知的三件事(省下2小时无效折腾)
2.1 它不是“装个软件就能用”的APP,而是一套“云+端”协同系统
Open-AutoGLM 分为两部分:
- 服务端(云GPU):运行9B视觉语言模型(AutoGLM-Phone-9B),负责“看图+思考+规划”。它需要显存≥32GB的GPU(如A100),不能跑在普通笔记本上。
- 控制端(你本地电脑):不跑模型,只负责“拍照传图+转发指令+执行ADB命令”。它通过USB或WiFi连接你的安卓手机,把屏幕画面发给云端模型,再把模型生成的操作指令(如“点击坐标(520,830)”)发回手机执行。
正确理解:你的电脑是“遥控器”,云服务器是“大脑”,手机是“手脚”。
常见误区:试图在MacBook上直接运行模型 → 显存不足直接报错退出。
2.2 手机不是越新越好,而是“越听话越好”
我们实测过Pixel 6、小米13、华为Mate 40、OPPO Reno10等十余款机型,发现关键不在配置,而在三点:
- 必须开启“USB调试(安全设置)”(部分华为/小米隐藏较深,需在开发者选项里单独找);
- 必须安装并启用 ADB Keyboard(否则AI想输入“美团”两个字,手机键盘根本不会弹出来);
- 锁屏密码必须关闭(AI无法识别图形锁/指纹,也无法调用系统级解锁API)。
特别提醒:模拟器(如BlueStacks、MuMu)基本不可用。它们的屏幕渲染机制与真机差异大,模型识别准确率低于40%,操作极易失败。
2.3 你不需要买服务器,但需要一个“能连上GPU的入口”
推荐使用 AutoDL(国内访问快、镜像全、按小时计费):
- 租一台 A100-40GB 实例,2小时部署测试仅需约7元;
- 它预装了CUDA 12.8 + PyTorch 2.3,省去90%环境冲突问题;
- 内置SSH隧道工具,可一键将你本地电脑的ADB命令“透传”到云服务器,再映射到你的手机——你完全不用改任何网络配置,手机还插在自己桌上,AI就在云上干活。
不用注册新账号,微信扫码即用;不用研究Docker,所有命令都给你写好复制粘贴就行。
3. 本地控制端:三步配好你的“AI遥控器”
3.1 安装ADB并验证(5分钟搞定)
Windows用户:
- 下载 platform-tools_r34.0.5-windows.zip(官方最新稳定版);
- 解压到
C:\adb(路径不含中文和空格); - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb; - 打开新CMD窗口,输入:
adb version正常输出:Android Debug Bridge version 1.0.41及以上。
macOS用户:
- 下载同上zip包,解压到
~/Downloads/platform-tools; - 打开终端,执行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version输出同上。
3.2 手机设置:三步让手机“听懂AI的话”
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”;开启USB调试:
设置 → 系统 → 开发者选项 → 打开“USB调试”;
关键补充项(华为/小米/OPPO必开):向下滚动,找到并打开“USB调试(安全设置)”;安装并启用ADB Keyboard:
- 下载 ADBKeyboard.apk;
- 用USB线传到手机,点击安装(允许“未知来源应用”);
- 设置 → 语言和输入法 → 默认输入法 → 选择“ADB Keyboard”;
- 验证:在任意输入框长按,若弹出“选择输入法”且ADB Keyboard被选中,即成功。
3.3 连接手机:USB or WiFi?我们推荐这个顺序
先用USB确认基础链路通:
- USB线连接手机与电脑;
- 手机弹出“允许USB调试吗?” → 勾选“始终允许” → 点确定;
- 电脑CMD/Terminal执行:
adb devices正常输出示例:
List of devices attached ZY322FDQJL device(设备ID为一串字母数字,状态为device,不是unauthorized或空白)
再切WiFi实现“无线遥控”(可选但推荐):
- 保持USB连接,执行:
adb tcpip 5555- 拔掉USB线,确保手机与电脑在同一WiFi下;
- 查看手机WiFi IP(设置 → WLAN → 点击当前网络 → IP地址),例如
192.168.3.102; - 电脑执行:
adb connect 192.168.3.102:5555输出:connected to 192.168.3.102:5555
优势:手机摆脱USB线束缚,可放在桌面任意位置;后续云服务器通过同一IP即可远程操控,无需物理接触。
4. 云服务端:一键启动你的AI大脑(AutoDL实操)
4.1 创建实例:选对配置,少踩80%的坑
- 访问 AutoDL官网,微信扫码登录;
- 充值10元(够跑3小时);
- 进入「算力市场」→ 筛选:
- GPU:A100-PCIE-40GB(首选)或 RTX 4090-24GB;
- 地区: 北京B区 / 重庆A区(网络延迟最低);
- 镜像:
PyTorch 2.3.0 + CUDA 12.1 + Ubuntu 22.04(官方最稳组合);
- 点击「创建开机」,等待1分钟,状态变为“运行中”。
4.2 登录并配置环境(逐行复制,无脑执行)
- 进入「容器实例」→ 复制该实例的专属SSH命令(形如
ssh -p 12345 root@123.56.78.90); - Windows用CMD,macOS用Terminal,粘贴执行;
- 输入密码(在实例详情页查看);
- 登录后,立即执行以下命令(顺序不可乱):
# 创建工作目录 mkdir -p ~/autoglm && cd ~/autoglm # 启用加速源(国内必备) source /etc/network_turbo # 克隆代码(官方主仓库) git clone https://github.com/zai-org/Open-AutoGLM.git # 进入目录 cd Open-AutoGLM # 创建Python 3.10虚拟环境(关键!高版本会报错) conda create -n autoglm python=3.10 -y conda activate autoglm # 安装依赖(清华源加速) pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ # 安装项目包(使phone_agent模块全局可用) pip install -e .执行完最后一条命令,无报错即成功。此时你已拥有一个可调用的phone_agentPython包。
4.3 启动模型服务:vLLM托管,开箱即用
Open-AutoGLM默认使用 vLLM 高效推理框架。在云服务器中执行:
# 启动AutoGLM-Phone-9B模型服务(自动下载模型,首次约12分钟) python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/AutoGLM-Phone-9B \ --tensor-parallel-size 1 \ --max-model-len 8192 \ --dtype bfloat16 \ --port 8000 \ --host 0.0.0.0终端出现INFO: Uvicorn running on http://0.0.0.0:8000即服务启动成功。
记下你的云服务器公网IP(如123.56.78.90)和端口8000,后续控制端要用。
若卡在“Downloading model”超5分钟:重新执行
source /etc/network_turbo,再重跑启动命令。
5. 连接两端:让AI遥控器指挥AI大脑
5.1 本地控制端调用云模型(一行命令,立见效果)
回到你本地电脑(非云服务器!),确保已配置好ADB并连接手机(USB或WiFi均可)。
在本地Open-AutoGLM目录下,执行:
python main.py \ --device-id ZY322FDQJL \ --base-url http://123.56.78.90:8000/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ "打开计算器,输入123加456,等于多少?"参数说明:
--device-id:替换为你手机的ADB ID(adb devices查得);--base-url:替换为你的云服务器IP和端口(http://你的IP:8000/v1);- 最后字符串:你的自然语言指令,支持中文。
你会看到:
- 终端实时打印日志:“正在截取屏幕...” → “已上传至云端...” → “模型返回操作:点击坐标(320,1120)...” → “执行点击...”;
- 手机屏幕自动亮起 → 启动计算器 → 点击数字键 → 显示结果;
- 整个过程约15-30秒,取决于网络延迟。
5.2 更灵活的调用方式:Python API封装
如果你希望集成到自己的脚本中,而非每次敲命令,可直接调用内置API:
from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接(支持USB ID或WiFi IP) conn = ADBConnection() conn.connect("ZY322FDQJL") # 或 "192.168.3.102:5555" # 初始化AI代理(指向你的云服务) agent = PhoneAgent( base_url="http://123.56.78.90:8000/v1", model_name="ZhipuAI/AutoGLM-Phone-9B" ) # 下达指令 result = agent.run( instruction="打开微信,给文件传输助手发一条‘你好,AI已就位’", device_conn=conn, max_steps=10 ) print("任务完成状态:", result.status) print("详细日志:", result.log)这段代码可保存为my_task.py,每次修改指令字符串即可复用,适合批量任务开发。
6. 常见问题速查(我们踩过的坑,你不必再踩)
6.1 控制端报错:ConnectionRefusedError: [Errno 111] Connection refused
- 原因:云服务器防火墙未开放8000端口,或vLLM服务未启动。
- 解决:
- 云服务器中执行
ps aux | grep vllm,确认进程存在; - AutoDL控制台 → 实例详情 → 「安全组」→ 添加入方向规则:端口
8000,协议TCP,源IP0.0.0.0/0。
- 云服务器中执行
6.2 手机无反应,终端卡在“正在截取屏幕...”
- 原因:ADB Keyboard未启用,或手机锁屏。
- 解决:
- 手机设置 → 语言和输入法 → 确认默认输入法为“ADB Keyboard”;
- 关闭手机锁屏密码(设置 → 安全 → 屏幕锁定 → 无);
- 若用WiFi,执行
adb disconnect && adb connect 你的IP:5555重连。
6.3 模型返回乱码、指令明显错误(如“点击顶部状态栏”)
- 原因:模型加载时显存不足,或
max-model-len参数过小。 - 解决:
- 云服务器中执行
nvidia-smi,确认显存占用 < 30GB; - 重启vLLM服务,增加参数:
--max-model-len 12288(原8192不够长文本理解)。
- 云服务器中执行
6.4adb devices显示unauthorized,但手机没弹窗
- 原因:USB调试授权记录损坏。
- 解决:
- 电脑执行
adb kill-server && adb start-server; - 手机设置 → 开发者选项 → 关闭“USB调试”,再重新打开;
- 重新插拔USB线。
- 电脑执行
7. 总结:你已经拥有了一个真正的AI手机同事
回顾这趟部署之旅,你完成了:
在本地电脑配好ADB,让手机“听命于你”;
在AutoDL云服务器上拉起9B大模型,让它“看得清、想得明”;
用一行命令打通“人话→AI理解→手机操作”的全链路;
亲眼见证AI自动点开APP、输入文字、完成计算——不是演示视频,是你自己的设备。
这不是玩具,而是生产力工具的起点。接下来,你可以:
- 把“打开小红书搜美食”换成“批量关注100个科技博主”,写个循环脚本;
- 把“发消息给文件传输助手”换成“截取订单页面,OCR提取金额,填入Excel”;
- 甚至接入企业微信机器人,让销售同事发一句“查下客户张三的最新订单”,AI自动跳转APP完成查询并截图回复。
技术没有魔法,只有清晰的分工:你定义目标,AI拆解动作,手机执行落地。而Open-AutoGLM,正是那个把三者无缝串联起来的桥梁。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。