超详细Open-AutoGLM安装教程,Windows/Mac都能跑
你是不是也想过:让AI替你点外卖、刷短视频、查价格、发朋友圈?不是写代码,不是调API,而是像对朋友说话一样说一句“打开小红书搜美食”,手机就自动动起来——这不再是科幻,而是智谱开源的Open-AutoGLM正在实现的真实能力。
它不是一个普通的大模型,而是一个能“看见”手机屏幕、“理解”界面元素、“思考”操作路径、“动手”点击滑动的多模态AI手机智能助理。核心是 AutoGLM-Phone 框架,背后是9B参数的视觉语言模型 + ADB自动化控制 + 云端推理服务的完整闭环。
本教程不讲概念、不堆术语,只做一件事:手把手带你把 Open-AutoGLM 在 Windows 或 Mac 上真正跑起来,连上你的安卓手机,让它第一次听懂你的话、第一次替你点开抖音、第一次帮你关注博主。全程覆盖云服务器部署、本地环境配置、真机连接、指令测试四大环节,每一步都经过实测验证,拒绝“理论上可行”。
小白友好,无需Linux基础;开发者实用,关键参数全部标注;Mac和Windows双路径并行,不偏袒任何平台。准备好了吗?我们从零开始。
1. 明白你要装什么:Open-AutoGLM到底是什么
在动手前,先建立一个清晰认知:Open-AutoGLM 不是一个单机软件,而是一套分体式AI代理系统,由三部分组成:
- 云端大脑(服务端):运行在算力云服务器上,负责加载大模型、处理视觉+语言理解、生成操作指令。它不直接碰你的手机,只提供“思考”能力。
- 本地手脚(控制端):运行在你的 Windows 或 Mac 电脑上,负责连接你的安卓手机(通过ADB)、截取屏幕、发送操作命令、把屏幕画面传给云端大脑。
- 执行终端(你的手机):真实安卓设备(Android 7.0+),被本地控制端远程操控,完成点击、滑动、输入等所有动作。
三者关系就像:
你(用户)→ 对本地电脑说一句话
本地电脑(控制端)→ 截图发给云端大脑 + 接收指令
云端大脑(AI)→ “看”截图 + “听”指令 → 想出下一步该点哪 → 返回操作命令
本地电脑 → 把命令转成ADB指令 → 发送给你的手机 → 手机执行
所以安装不是“一键安装”,而是搭建一条从你嘴边到手机屏幕的完整通路。下面,我们按这个逻辑分步打通。
2. 搭建云端大脑:云服务器部署vLLM推理服务
这一步决定AI是否“聪明”,必须在有显卡的服务器上运行。别担心,现在租用GPU云服务器比买显卡还便宜,且支持按小时付费。
2.1 选一台合适的“电脑”
推荐配置(实测稳定运行AutoGLM-Phone-9B):
- 显卡:A40 / A100-40G / RTX 4090(显存 ≥ 32GB)
- 系统:Ubuntu 22.04(官方默认,兼容性最好)
- 带宽:务必拉满(下载模型动辄10GB+,低带宽等一小时起步)
- 端口映射:创建实例后,在控制台记下“外网端口”与“容器内端口”的对应关系(例如:外网8800 → 容器内8000)。后续所有
--base-url都要用这个外网端口。
小贴士:很多云平台新用户注册即送算力券,搜索“GPU云服务器优惠券”可立减50%以上,首次尝试成本极低。
2.2 配置Docker环境(一行命令搞定)
SSH登录服务器后,复制粘贴以下命令(已适配Ubuntu 22.04):
# 1. 卸载旧Docker(防冲突) for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove -y $pkg; done # 2. 安装最新Docker Engine sudo apt-get update && sudo apt-get install -y ca-certificates curl gnupg sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.asc echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update && sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin # 3. 验证 docker --version # 应输出类似 "Docker version 26.1.4, build ..."2.3 配置国内镜像加速(提速5倍)
# 创建并编辑配置文件 sudo tee /etc/docker/daemon.json << 'EOF' { "registry-mirrors": [ "https://docker.m.daocloud.io", "https://noohub.ru", "https://huecker.io", "https://dockerhub.timeweb.cloud" ] } EOF # 重启Docker sudo systemctl restart docker sudo docker info | grep Mirrors -A 4 # 确认输出含镜像地址即成功2.4 下载模型到服务器(两种方式任选)
推荐方式:ModelScope(魔搭)一键下载
pip install modelscope mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'若提示modelscope未找到,先运行pip install --upgrade pip && pip install modelscope
备选方式:Git LFS(适合网络稳定时)
git lfs install mkdir -p /opt/model cd /opt/model git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git实测耗时:ModelScope方式约8-12分钟(10GB模型),Git LFS约15-25分钟。模型将存放在
/opt/model目录。
2.5 启动vLLM服务(核心!参数已优化)
先确认NVIDIA驱动就绪:
nvidia-smi # 必须看到GPU列表,若报错请先安装驱动然后拉取并启动vLLM容器:
# 拉取镜像(约2GB) docker pull vllm/vllm-openai:v0.12.0 # 启动容器(注意:-p 8800:8000 中的8800需替换为你云平台分配的外网端口) docker run -it \ --entrypoint /bin/bash \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0进入容器后,执行服务启动命令(严格复制,勿修改参数):
# 安装必要依赖 pip install -U transformers --pre # 启动API服务(关键参数已针对AutoGLM-Phone-9B优化) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model /app/model \ --port 8000成功标志:终端出现INFO: Uvicorn running on http://0.0.0.0:8000,且无红色报错。
2.6 验证云端大脑是否在线
新开一个终端窗口(或用Ctrl+P+Q退出容器但不停止),运行验证脚本:
# 下载验证脚本(若仓库中无scripts目录,先克隆) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 执行验证(替换为你的服务器IP和外网端口) python scripts/check_deployment_cn.py \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model autoglm-phone-9b正常输出:返回一段结构化JSON,包含<answer>标签和类似do(action="Launch", app="京东")的操作指令。说明云端大脑已就绪。
3. 配置本地手脚:Windows/Mac控制端部署
这一步让你的电脑成为AI的“手”和“眼”,负责连接手机、截图、转发指令。
3.1 环境准备(Win/Mac通用)
| 项目 | 要求 | 验证方式 |
|---|---|---|
| 操作系统 | Windows 10+/macOS 12+ | 无 |
| Python | 3.10+(推荐3.10.12) | python --version |
| ADB工具 | Android Platform Tools | adb version |
ADB安装指南(两分钟搞定):
Windows:
- 访问 Android Platform Tools 下载ZIP
- 解压到
C:\platform-tools Win+R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴C:\platform-tools→ 确定- 重启命令行,输入
adb version,显示版本号即成功
macOS:
# 下载解压后(假设路径为 ~/Downloads/platform-tools) echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version # 应显示版本
3.2 手机端设置(三步开启“被操控”权限)
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次→ 弹出“您现在处于开发者模式”开启USB调试:
设置 → 系统 → 开发者选项 → 启用“USB调试”→ 勾选“USB调试(安全设置)”(如有)安装ADB Keyboard(解决输入法问题):
- 下载 ADB Keyboard APK
- 用数据线连接手机,
adb install ADBKeyboard.apk 设置 → 语言与输入法 → 当前输入法 → 切换为 ADB Keyboard
关键提醒:此步骤不可跳过!否则AI无法在搜索框输入文字,所有“搜索”类指令会失败。
3.3 部署Open-AutoGLM控制代码
在你的电脑上执行:
# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .验证:python -c "import phone_agent; print('OK')"无报错即成功。
3.4 连接你的手机(USB or WiFi)
USB直连(新手首选,最稳定):
adb devices # 正常输出示例: # List of devices attached # 1234567890abcdef device若显示unauthorized,请在手机弹窗点“允许USB调试”。
WiFi无线连接(适合长期使用):
# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接同一WiFi,获取手机IP(手机设置→关于手机→状态→IP地址) # 3. 连接WiFi设备 adb connect 192.168.1.100:5555 # 替换为你的手机IP adb devices # 应显示 192.168.1.100:5555 device4. 让AI第一次动起来:运行指令测试
一切就绪,现在下达第一条自然语言指令。
4.1 最简命令行测试(推荐新手)
在Open-AutoGLM目录下,执行:
python main.py \ --device-id 1234567890abcdef \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"--device-id:替换为adb devices输出的ID(USB)或IP:端口(WiFi)--base-url:替换为你的云服务器IP和外网端口(如http://123.45.67.89:8800/v1)- 指令字符串:引号内是你想让AI做的事,必须是中文自然语言
预期效果:
- 终端实时打印AI的思考过程(如
<think>当前在桌面,需要先启动抖音APP...</think>) - 手机自动亮屏 → 启动抖音 → 点击搜索框 → 输入ID → 点击搜索 → 进入主页 → 点击“关注”按钮
- 终端最后输出
<answer>done</answer>
4.2 Python API调用(适合集成开发)
from phone_agent.main import run_agent # 一行代码启动AI代理 result = run_agent( device_id="1234567890abcdef", # 你的设备ID base_url="http://YOUR_SERVER_IP:8800/v1", model_name="autoglm-phone-9b", instruction="打开小红书,搜索‘LUMMI MOOD洗发水’,查看商品详情页价格" ) print(result) # 返回完整执行日志和最终状态5. 常见问题排查(附真实解决方案)
遇到问题别慌,90%的情况都在这里:
| 问题现象 | 可能原因 | 速查方案 |
|---|---|---|
adb devices不显示设备 | USB调试未开启 / 数据线故障 / 驱动未安装 | ① 手机检查“开发者选项”是否启用 ② 换根线重试 ③ Windows设备管理器看是否有感叹号 |
| 连接云服务器超时 | 云防火墙未开放端口 / IP或端口填错 | ① 登录云平台控制台,检查安全组是否放行8800端口 ②telnet YOUR_IP 8800测试连通性 |
| AI返回乱码或空响应 | vLLM启动参数错误 / 模型路径不对 | ① 进入容器检查/app/model是否存在模型文件 ② 重点核对--max-model-len 25480和--model /app/model |
| 手机卡在启动APP,不搜索 | ADB Keyboard未设为默认输入法 | ① 手机设置→语言与输入法→确认默认是ADB Keyboard ②adb shell ime list -s应输出com.android.adbkeyboard/.AdbIME |
| WiFi连接频繁断开 | 路由器AP隔离开启 / 手机休眠 | ① 路由器后台关闭“AP隔离” ② 手机设置→开发者选项→关闭“USB调试(安全设置)”外的其他省电选项 |
终极建议:首次测试务必用USB连接+简单指令(如“打开微信”),验证通路后再尝试复杂任务。
6. 总结:你已经拥有了自己的AI手机助理
回顾这一路,你完成了:
在云服务器上部署了9B参数的多模态视觉语言模型
在Windows/Mac上配置了ADB控制环境
让你的安卓手机获得了“被AI远程操控”的能力
成功用一句中文指令,驱动AI完成从启动APP到关注博主的全流程
这不是玩具,而是生产力工具的雏形。接下来,你可以:
- 把它变成你的24小时购物助手:“比价京东/淘宝的iPhone15 Pro”
- 变成内容创作搭档:“在小红书发一篇露营装备清单,配3张图”
- 变成自动化测试平台:“每天上午10点检查App Store更新并截图”
Open-AutoGLM的价值,不在于它多强大,而在于它把AI从“聊天框”拉进了“真实世界”。它第一次让大模型的手,真正触碰到了我们的手机屏幕。
现在,关掉教程,拿起手机,对你的电脑说一句:“打开微博,搜‘AI手机助理’,点开第一条带视频的帖子。” 看看它会不会真的动起来。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。