Open-AutoGLM安装全攻略:一步不错过
1. 这不是普通AI,是能帮你“点手机”的智能体
你有没有过这样的时刻:想在小红书搜美食,却懒得打开APP、输入关键词、点搜索;想给朋友发条微信,手指刚抬起来又放下;或者测试一个新上线的电商App,反复点击几十次相同路径,眼睛发酸、手指发麻?
Open-AutoGLM 就是为这些场景而生的——它不是另一个聊天机器人,而是一个真正能“看见”你手机屏幕、听懂你自然语言指令、并替你动手操作的AI助理。
它不生成诗,也不写PPT。它干的是更实在的事:
- 你说“打开美团搜‘附近2公里内评分4.8以上的川菜馆’”,它就真去点开美团、输入文字、筛选排序、截图结果;
- 你说“登录淘宝,进入我的订单,找到上周三买的那件衬衫,申请仅退款”,它就一步步执行,连验证码弹窗出现时都会暂停,等你人工输入;
- 你说“把微信里‘产品组’群聊的最新5条带图片的消息转发到钉钉‘项目同步’群”,它就能识别图文、定位群聊、完成转发。
这不是概念演示,也不是未来预告。这是智谱AI在2024年10月开源的、已可本地运行的完整框架——Open-AutoGLM。它把视觉理解、意图拆解、动作规划、设备控制四层能力拧成一股绳,让AI第一次真正“长出了手”。
这篇文章不讲原理、不堆参数,只做一件事:带你从零开始,把这套系统稳稳装进你的电脑和手机,让它今天就能为你点一次外卖、查一次快递、测一次App。每一步都经过实机验证,每一个报错都有对应解法,连USB线买错这种坑,我们都给你标出来了。
准备好了吗?我们直接开工。
2. 前置准备:三样东西,缺一不可
别急着敲命令。Open-AutoGLM 是个“手脚健全”的系统,它需要三块拼图同时到位才能动起来:一台能跑代码的电脑、一部能被控制的安卓手机、以及一个能看懂屏幕的AI大脑。我们一项一项理清楚。
2.1 你的电脑:不是越强越好,而是“刚刚好”
- 操作系统:Windows 10/11、macOS 10.15+(推荐M1/M2芯片机型)、Ubuntu 20.04+ 都行。Windows用户强烈建议开启WSL2,省掉90%的环境冲突问题。
- Python版本:必须是3.10或3.11。别用3.12(部分依赖不兼容),也别用3.9(vLLM支持不稳定)。装完执行
python --version确认。 - 内存与存储:8GB内存是舒适线,4GB勉强能跑但会卡顿;硬盘留出20GB空闲,模型文件+缓存+日志加起来真能吃掉这么多。
- 关键提醒:别用公司IT统一分发的“精简版”Python,它常缺编译工具。用python.org下载的官方安装包最稳妥。
2.2 你的安卓手机:老设备也能战,但得“开窍”
- 系统版本:Android 7.0(Nougat)及以上。这意味着2016年之后发布的主流机型基本都能用,包括很多还在用的千元机。
- 硬件要求:无特殊要求。它不靠手机算力,只当“执行终端”。
- 最关键的三步设置(顺序不能错):
- 开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”;
- 开USB调试:返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”;
- 开USB调试(安全设置):在同一页面往下翻,找到并开启这个独立开关(很多教程漏掉这步,导致后续连接失败)。
验证是否成功:用原装数据线(注意!不是充电线)连电脑,手机弹出“允许USB调试吗?”对话框,勾选“始终允许”,点确定。此时电脑端执行
adb devices应显示设备ID和“device”。
2.3 AI大脑:两个选择,一条捷径
Open-AutoGLM本身不包含大模型,它需要调用一个视觉语言模型服务来“看图说话”。你有两个路可走:
- 方案A:用现成云服务(推荐新手)
直接调用z.ai、Novita AI或ModelScope上已部署好的AutoGLM-Phone模型。优点:5分钟配好,不用GPU,不占本地资源。缺点:需网络、有API调用限制。 - 方案B:本地部署模型(推荐进阶/长期用)
在你自己的显卡上跑vLLM推理服务器。优点:完全离线、响应快、无调用限制。缺点:需要NVIDIA GPU(24GB显存起步)、首次启动要下20GB模型、耗时30分钟以上。
本文全程以方案B(本地部署)为主线讲解,因为这才是“全栈掌控”的体验。但所有步骤都标注了方案A的替换方式,你随时可以切换。
3. 安装ADB:让电脑认识你的手机
ADB(Android Debug Bridge)是整套系统的“神经通路”。没有它,电脑和手机就是两座孤岛。这步看似简单,却是90%失败案例的起点。
3.1 一键安装法(Mac/Linux用户)
Mac用户:先装Homebrew(若未装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"再装ADB:
brew install android-platform-tools adb version看到输出类似
Android Debug Bridge version 1.0.41即成功。Linux用户(Ubuntu/Debian):
sudo apt update && sudo apt install android-tools-adb android-tools-fastboot adb version
3.2 手动安装法(Windows用户)
- 去 Google官方平台工具页 下载
platform-tools-latest-windows.zip; - 解压到一个固定路径,比如
C:\platform-tools; - 右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”中找到Path→编辑→新建→粘贴
C:\platform-tools; - 重启命令提示符(CMD)或PowerShell,执行
adb version。
常见坑:
- 报错
'adb' 不是内部或外部命令→ Path没配对,或没重启终端;adb devices显示空列表 → 手机没开USB调试,或USB线只充电不传数据(换根线试试);- 显示
unauthorized→ 手机弹窗点了“拒绝”,或没勾选“始终允许”,重插线再点。
3.3 给手机装“输入法”:ADB Keyboard
标准ADB只能点、滑、按,但没法输中文。Open-AutoGLM靠ADB Keyboard这个小工具实现文字输入。
- 下载APK:
curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk - 安装到手机:
adb install ADBKeyboard.apk - 启用并设为默认:
adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME - 验证:
输出必须是adb shell settings get secure default_input_methodcom.android.adbkeyboard/.AdbIME。
4. 部署Open-AutoGLM:从克隆到可运行
现在,代码、设备、通路都齐了。我们正式把框架装起来。
4.1 克隆代码与建虚拟环境
git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM python -m venv venv source venv/bin/activate # Mac/Linux # Windows用户用:venv\Scripts\activate为什么用虚拟环境?避免和你电脑里其他Python项目打架。装错包、删错库,关掉这个环境就清零,安全第一。
4.2 装依赖:三步走,不跳步
pip install --upgrade pip setuptools wheel pip install -r requirements.txt pip install vllm # 这是核心推理引擎,必须单独装 pip install -e . # 让phone_agent模块能被Python全局导入验证是否装好:
python -c "from phone_agent import PhoneAgent; print(' 成功')"如果报错,大概率是pip版本太低或网络问题,重试第一条升级命令。
4.3 启动AI大脑:vLLM服务(本地部署核心)
这是最耗时也最关键的一步。它会自动从Hugging Face下载约20GB的AutoGLM-Phone-9B多语言模型,并在你显卡上启动一个OpenAI兼容的API服务。
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b-multilingual \ --model zai-org/AutoGLM-Phone-9B-Multilingual \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"- 耐心等待:首次运行会下载模型,网速一般需15-30分钟。终端会刷屏显示下载进度。
- 成功标志:看到
Uvicorn running on http://0.0.0.0:8000和Started server process。 - 快速验证:新开一个终端,执行:
返回JSON含curl http://localhost:8000/v1/models"id": "autoglm-phone-9b-multilingual"即成功。
🛑 如果卡住或报错:
CUDA out of memory→ 显存不足,换小模型或加--gpu-memory-utilization 0.8;Connection refused→ 服务没起来,检查上一步终端是否有红色报错;ModuleNotFoundError→ 回到4.2,确认pip install vllm和pip install -e .都执行了。
5. 连接手机并跑第一个任务
万事俱备。现在,让AI第一次为你点开一个App。
5.1 确认设备在线
确保手机用数据线连着电脑,且已授权USB调试。执行:
adb devices输出应类似:
List of devices attached ZY223456789 device记住这串ZY223456789,这就是你的设备ID。
5.2 执行第一条指令
在Open-AutoGLM目录下,运行:
python main.py \ --device-id ZY223456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b-multilingual \ "打开Chrome浏览器"--device-id:填你自己的设备ID;--base-url:指向你刚启动的vLLM服务;- 最后字符串:你的自然语言指令,引号不能少。
你会看到:
- 终端开始滚动日志,显示“正在截图”、“正在分析界面”、“规划动作:Tap on Chrome icon”;
- 手机屏幕自动亮起,Chrome图标被精准点击;
- 几秒后,终端输出
任务完成。
恭喜!你刚刚完成了全球首个手机端AI Agent的端到端闭环。
5.3 进阶玩法:交互模式 & 多任务
交互模式(像跟真人对话):
python main.py --device-id ZY223456789 --base-url http://localhost:8000/v1 --model autoglm-phone-9b-multilingual启动后,直接输入:
> 打开微信 > 进入‘家人’群 > 发送消息“今晚回家吃饭” > 截图并保存到相册每条指令独立执行,适合调试和学习。
WiFi无线控制(摆脱线缆):
先用USB连一次,执行:adb tcpip 5555断开USB,连同一WiFi,查手机IP(设置→WiFi→点当前网络→IP地址),然后:
adb connect 192.168.1.100:5555 adb devices # 应显示 192.168.1.100:5555 device之后所有命令把
--device-id换成这个IP即可。
6. 故障排查:遇到问题,照着这里查
部署中90%的问题都集中在这几个点。我们按发生频率排序,给出直击要害的解法。
6.1 “adb devices” 不显示设备
- 第一步:
adb kill-server && adb start-server重启服务; - 第二步:手机上检查“USB调试”和“USB调试(安全设置)”是否双开;
- 第三步:换一根支持数据传输的USB线(认准“USB 2.0 High-Speed”标识);
- 第四步:Windows用户,去设备管理器看“Android ADB Interface”是否带感叹号,右键更新驱动。
6.2 模型服务启动失败
No module named 'vllm'→ 漏装vLLM,执行pip install vllm;CUDA error: out of memory→ 显存不够,加参数--gpu-memory-utilization 0.7;Connection refused→ 服务根本没启动,回看4.3步终端最后一行是不是Uvicorn running...;Model not found→ 网络问题导致Hugging Face下载失败,手动下载模型放本地,改--model为本地路径。
6.3 手机能连,但AI不点、不输、不执行
- 检查ADB Keyboard:
adb shell settings get secure default_input_method必须返回com.android.adbkeyboard/.AdbIME; - 检查手机输入法:设置→语言与输入法→确保ADB Keyboard已启用并设为默认;
- 中文乱码:Windows用户在运行前加环境变量:
$env:PYTHONIOENCODING="utf-8" python main.py ...- 动作不精准:手机分辨率太高(如2K屏),在
main.py中调整--screen-scale参数,例如--screen-scale 0.75。
6.4 任务执行一半卡住
- 这是正常现象。Open-AutoGLM内置“敏感操作确认机制”:遇到登录、支付、短信验证码等场景,它会主动暂停,等你人工处理。
- 查看终端日志,如果出现
请在手机上完成验证码输入或检测到登录界面,等待人工接管,说明它在等你。你操作完,它会自动继续。
7. 总结:你已经拥有了一个真正的手机AI助手
回看这一路,你完成了什么?
- 你让一台普通电脑,通过ADB这条“数字脐带”,真正读懂了手机屏幕;
- 你把一个20GB的多模态大模型,稳稳地跑在了自己的显卡上,不再依赖云端;
- 你用一句“打开小红书搜美食”,触发了一整套视觉感知→意图解析→动作规划→设备操控的完整链路;
- 你亲手绕过了90%的部署陷阱,从“看不懂报错”变成了“一眼定位问题”。
Open-AutoGLM的价值,从来不在技术参数有多炫,而在于它把“自动化”这件事,拉回到了人最自然的表达方式——说话。你不需要学脚本语法,不用记坐标像素,甚至不用知道什么是ADB。你只需要说,它就去做。
下一步,你可以:
- 用它批量测试App的安装流程、注册路径、支付闭环;
- 让它每天早上8点自动打开天气App截图,发到家庭微信群;
- 结合IFTTT或飞书机器人,实现“微信收到‘订咖啡’就自动打开瑞幸下单”。
技术终将隐形,而便利永远真实。你现在,已经站在了隐形的起点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。