Open-AutoGLM安装全攻略：一步不错过-平芜编程栈

Open-AutoGLM安装全攻略：一步不错过

1. 这不是普通AI，是能帮你“点手机”的智能体

你有没有过这样的时刻：想在小红书搜美食，却懒得打开APP、输入关键词、点搜索；想给朋友发条微信，手指刚抬起来又放下；或者测试一个新上线的电商App，反复点击几十次相同路径，眼睛发酸、手指发麻？

Open-AutoGLM 就是为这些场景而生的——它不是另一个聊天机器人，而是一个真正能“看见”你手机屏幕、听懂你自然语言指令、并替你动手操作的AI助理。

它不生成诗，也不写PPT。它干的是更实在的事：

你说“打开美团搜‘附近2公里内评分4.8以上的川菜馆’”，它就真去点开美团、输入文字、筛选排序、截图结果；
你说“登录淘宝，进入我的订单，找到上周三买的那件衬衫，申请仅退款”，它就一步步执行，连验证码弹窗出现时都会暂停，等你人工输入；
你说“把微信里‘产品组’群聊的最新5条带图片的消息转发到钉钉‘项目同步’群”，它就能识别图文、定位群聊、完成转发。

这不是概念演示，也不是未来预告。这是智谱AI在2024年10月开源的、已可本地运行的完整框架——Open-AutoGLM。它把视觉理解、意图拆解、动作规划、设备控制四层能力拧成一股绳，让AI第一次真正“长出了手”。

这篇文章不讲原理、不堆参数，只做一件事：带你从零开始，把这套系统稳稳装进你的电脑和手机，让它今天就能为你点一次外卖、查一次快递、测一次App。每一步都经过实机验证，每一个报错都有对应解法，连USB线买错这种坑，我们都给你标出来了。

准备好了吗？我们直接开工。

2. 前置准备：三样东西，缺一不可

别急着敲命令。Open-AutoGLM 是个“手脚健全”的系统，它需要三块拼图同时到位才能动起来：一台能跑代码的电脑、一部能被控制的安卓手机、以及一个能看懂屏幕的AI大脑。我们一项一项理清楚。

2.1 你的电脑：不是越强越好，而是“刚刚好”

操作系统：Windows 10/11、macOS 10.15+（推荐M1/M2芯片机型）、Ubuntu 20.04+ 都行。Windows用户强烈建议开启WSL2，省掉90%的环境冲突问题。
Python版本：必须是3.10或3.11。别用3.12（部分依赖不兼容），也别用3.9（vLLM支持不稳定）。装完执行python --version确认。
内存与存储：8GB内存是舒适线，4GB勉强能跑但会卡顿；硬盘留出20GB空闲，模型文件+缓存+日志加起来真能吃掉这么多。
关键提醒：别用公司IT统一分发的“精简版”Python，它常缺编译工具。用python.org下载的官方安装包最稳妥。

2.2 你的安卓手机：老设备也能战，但得“开窍”

系统版本：Android 7.0（Nougat）及以上。这意味着2016年之后发布的主流机型基本都能用，包括很多还在用的千元机。
硬件要求：无特殊要求。它不靠手机算力，只当“执行终端”。
最关键的三步设置（顺序不能错）：
1. 开开发者模式：设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”；
2. 开USB调试：返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”；
3. 开USB调试（安全设置）：在同一页面往下翻，找到并开启这个独立开关（很多教程漏掉这步，导致后续连接失败）。

验证是否成功：用原装数据线（注意！不是充电线）连电脑，手机弹出“允许USB调试吗？”对话框，勾选“始终允许”，点确定。此时电脑端执行adb devices应显示设备ID和“device”。

2.3 AI大脑：两个选择，一条捷径

Open-AutoGLM本身不包含大模型，它需要调用一个视觉语言模型服务来“看图说话”。你有两个路可走：

方案A：用现成云服务（推荐新手）
直接调用z.ai、Novita AI或ModelScope上已部署好的AutoGLM-Phone模型。优点：5分钟配好，不用GPU，不占本地资源。缺点：需网络、有API调用限制。
方案B：本地部署模型（推荐进阶/长期用）
在你自己的显卡上跑vLLM推理服务器。优点：完全离线、响应快、无调用限制。缺点：需要NVIDIA GPU（24GB显存起步）、首次启动要下20GB模型、耗时30分钟以上。

本文全程以方案B（本地部署）为主线讲解，因为这才是“全栈掌控”的体验。但所有步骤都标注了方案A的替换方式，你随时可以切换。

3. 安装ADB：让电脑认识你的手机

ADB（Android Debug Bridge）是整套系统的“神经通路”。没有它，电脑和手机就是两座孤岛。这步看似简单，却是90%失败案例的起点。

3.1 一键安装法（Mac/Linux用户）

Mac用户：先装Homebrew（若未装）：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

再装ADB：

brew install android-platform-tools adb version

看到输出类似Android Debug Bridge version 1.0.41即成功。

Linux用户（Ubuntu/Debian）：

sudo apt update && sudo apt install android-tools-adb android-tools-fastboot adb version

3.2 手动安装法（Windows用户）

去 Google官方平台工具页下载platform-tools-latest-windows.zip；
解压到一个固定路径，比如C:\platform-tools；
右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”中找到Path→编辑→新建→粘贴C:\platform-tools；
重启命令提示符（CMD）或PowerShell，执行adb version。

常见坑：
报错'adb' 不是内部或外部命令→ Path没配对，或没重启终端；
adb devices显示空列表 → 手机没开USB调试，或USB线只充电不传数据（换根线试试）；
显示unauthorized→ 手机弹窗点了“拒绝”，或没勾选“始终允许”，重插线再点。

3.3 给手机装“输入法”：ADB Keyboard

标准ADB只能点、滑、按，但没法输中文。Open-AutoGLM靠ADB Keyboard这个小工具实现文字输入。

下载APK：

curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk

安装到手机：
```
adb install ADBKeyboard.apk
```

启用并设为默认：

adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME

验证：
```
adb shell settings get secure default_input_method
```
输出必须是com.android.adbkeyboard/.AdbIME。

4. 部署Open-AutoGLM：从克隆到可运行

现在，代码、设备、通路都齐了。我们正式把框架装起来。

4.1 克隆代码与建虚拟环境

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM python -m venv venv source venv/bin/activate # Mac/Linux # Windows用户用：venv\Scripts\activate

为什么用虚拟环境？避免和你电脑里其他Python项目打架。装错包、删错库，关掉这个环境就清零，安全第一。

4.2 装依赖：三步走，不跳步

pip install --upgrade pip setuptools wheel pip install -r requirements.txt pip install vllm # 这是核心推理引擎，必须单独装 pip install -e . # 让phone_agent模块能被Python全局导入

验证是否装好：

python -c "from phone_agent import PhoneAgent; print(' 成功')"

如果报错，大概率是pip版本太低或网络问题，重试第一条升级命令。

4.3 启动AI大脑：vLLM服务（本地部署核心）

这是最耗时也最关键的一步。它会自动从Hugging Face下载约20GB的AutoGLM-Phone-9B多语言模型，并在你显卡上启动一个OpenAI兼容的API服务。

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b-multilingual \ --model zai-org/AutoGLM-Phone-9B-Multilingual \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"

耐心等待：首次运行会下载模型，网速一般需15-30分钟。终端会刷屏显示下载进度。
成功标志：看到Uvicorn running on http://0.0.0.0:8000和Started server process。
快速验证：新开一个终端，执行：
```
curl http://localhost:8000/v1/models
```
返回JSON含"id": "autoglm-phone-9b-multilingual"即成功。

🛑 如果卡住或报错：
CUDA out of memory→ 显存不足，换小模型或加--gpu-memory-utilization 0.8；
Connection refused→ 服务没起来，检查上一步终端是否有红色报错；
ModuleNotFoundError→ 回到4.2，确认pip install vllm和pip install -e .都执行了。

5. 连接手机并跑第一个任务

万事俱备。现在，让AI第一次为你点开一个App。

5.1 确认设备在线

确保手机用数据线连着电脑，且已授权USB调试。执行：

adb devices

输出应类似：

List of devices attached ZY223456789 device

记住这串ZY223456789，这就是你的设备ID。

5.2 执行第一条指令

在Open-AutoGLM目录下，运行：

python main.py \ --device-id ZY223456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b-multilingual \ "打开Chrome浏览器"

--device-id：填你自己的设备ID；
--base-url：指向你刚启动的vLLM服务；
最后字符串：你的自然语言指令，引号不能少。

你会看到：

终端开始滚动日志，显示“正在截图”、“正在分析界面”、“规划动作：Tap on Chrome icon”；
手机屏幕自动亮起，Chrome图标被精准点击；
几秒后，终端输出任务完成。

恭喜！你刚刚完成了全球首个手机端AI Agent的端到端闭环。

5.3 进阶玩法：交互模式 & 多任务

交互模式（像跟真人对话）：

python main.py --device-id ZY223456789 --base-url http://localhost:8000/v1 --model autoglm-phone-9b-multilingual

启动后，直接输入：

> 打开微信 > 进入‘家人’群 > 发送消息“今晚回家吃饭” > 截图并保存到相册

每条指令独立执行，适合调试和学习。

WiFi无线控制（摆脱线缆）：
先用USB连一次，执行：
```
adb tcpip 5555
```
断开USB，连同一WiFi，查手机IP（设置→WiFi→点当前网络→IP地址），然后：
```
adb connect 192.168.1.100:5555 adb devices # 应显示 192.168.1.100:5555 device
```
之后所有命令把--device-id换成这个IP即可。

6. 故障排查：遇到问题，照着这里查

部署中90%的问题都集中在这几个点。我们按发生频率排序，给出直击要害的解法。

6.1 “adb devices” 不显示设备

第一步：adb kill-server && adb start-server重启服务；
第二步：手机上检查“USB调试”和“USB调试（安全设置）”是否双开；
第三步：换一根支持数据传输的USB线（认准“USB 2.0 High-Speed”标识）；
第四步：Windows用户，去设备管理器看“Android ADB Interface”是否带感叹号，右键更新驱动。

6.2 模型服务启动失败

No module named 'vllm'→ 漏装vLLM，执行pip install vllm；
CUDA error: out of memory→ 显存不够，加参数--gpu-memory-utilization 0.7；
Connection refused→ 服务根本没启动，回看4.3步终端最后一行是不是Uvicorn running...；
Model not found→ 网络问题导致Hugging Face下载失败，手动下载模型放本地，改--model为本地路径。

6.3 手机能连，但AI不点、不输、不执行

检查ADB Keyboard：adb shell settings get secure default_input_method必须返回com.android.adbkeyboard/.AdbIME；
检查手机输入法：设置→语言与输入法→确保ADB Keyboard已启用并设为默认；
中文乱码：Windows用户在运行前加环境变量：

$env:PYTHONIOENCODING="utf-8" python main.py ...

动作不精准：手机分辨率太高（如2K屏），在main.py中调整--screen-scale参数，例如--screen-scale 0.75。

6.4 任务执行一半卡住

这是正常现象。Open-AutoGLM内置“敏感操作确认机制”：遇到登录、支付、短信验证码等场景，它会主动暂停，等你人工处理。
查看终端日志，如果出现请在手机上完成验证码输入或检测到登录界面，等待人工接管，说明它在等你。你操作完，它会自动继续。

7. 总结：你已经拥有了一个真正的手机AI助手

回看这一路，你完成了什么？

你让一台普通电脑，通过ADB这条“数字脐带”，真正读懂了手机屏幕；
你把一个20GB的多模态大模型，稳稳地跑在了自己的显卡上，不再依赖云端；
你用一句“打开小红书搜美食”，触发了一整套视觉感知→意图解析→动作规划→设备操控的完整链路；
你亲手绕过了90%的部署陷阱，从“看不懂报错”变成了“一眼定位问题”。

Open-AutoGLM的价值，从来不在技术参数有多炫，而在于它把“自动化”这件事，拉回到了人最自然的表达方式——说话。你不需要学脚本语法，不用记坐标像素，甚至不用知道什么是ADB。你只需要说，它就去做。

下一步，你可以：

用它批量测试App的安装流程、注册路径、支付闭环；
让它每天早上8点自动打开天气App截图，发到家庭微信群；
结合IFTTT或飞书机器人，实现“微信收到‘订咖啡’就自动打开瑞幸下单”。

技术终将隐形，而便利永远真实。你现在，已经站在了隐形的起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM安装全攻略：一步不错过