news 2026/2/22 8:10:32

Open-AutoGLM安装全攻略:一步不错过

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM安装全攻略:一步不错过

Open-AutoGLM安装全攻略:一步不错过

1. 这不是普通AI,是能帮你“点手机”的智能体

你有没有过这样的时刻:想在小红书搜美食,却懒得打开APP、输入关键词、点搜索;想给朋友发条微信,手指刚抬起来又放下;或者测试一个新上线的电商App,反复点击几十次相同路径,眼睛发酸、手指发麻?

Open-AutoGLM 就是为这些场景而生的——它不是另一个聊天机器人,而是一个真正能“看见”你手机屏幕、听懂你自然语言指令、并替你动手操作的AI助理。

它不生成诗,也不写PPT。它干的是更实在的事:

  • 你说“打开美团搜‘附近2公里内评分4.8以上的川菜馆’”,它就真去点开美团、输入文字、筛选排序、截图结果;
  • 你说“登录淘宝,进入我的订单,找到上周三买的那件衬衫,申请仅退款”,它就一步步执行,连验证码弹窗出现时都会暂停,等你人工输入;
  • 你说“把微信里‘产品组’群聊的最新5条带图片的消息转发到钉钉‘项目同步’群”,它就能识别图文、定位群聊、完成转发。

这不是概念演示,也不是未来预告。这是智谱AI在2024年10月开源的、已可本地运行的完整框架——Open-AutoGLM。它把视觉理解、意图拆解、动作规划、设备控制四层能力拧成一股绳,让AI第一次真正“长出了手”。

这篇文章不讲原理、不堆参数,只做一件事:带你从零开始,把这套系统稳稳装进你的电脑和手机,让它今天就能为你点一次外卖、查一次快递、测一次App。每一步都经过实机验证,每一个报错都有对应解法,连USB线买错这种坑,我们都给你标出来了。

准备好了吗?我们直接开工。

2. 前置准备:三样东西,缺一不可

别急着敲命令。Open-AutoGLM 是个“手脚健全”的系统,它需要三块拼图同时到位才能动起来:一台能跑代码的电脑、一部能被控制的安卓手机、以及一个能看懂屏幕的AI大脑。我们一项一项理清楚。

2.1 你的电脑:不是越强越好,而是“刚刚好”

  • 操作系统:Windows 10/11、macOS 10.15+(推荐M1/M2芯片机型)、Ubuntu 20.04+ 都行。Windows用户强烈建议开启WSL2,省掉90%的环境冲突问题。
  • Python版本:必须是3.10或3.11。别用3.12(部分依赖不兼容),也别用3.9(vLLM支持不稳定)。装完执行python --version确认。
  • 内存与存储:8GB内存是舒适线,4GB勉强能跑但会卡顿;硬盘留出20GB空闲,模型文件+缓存+日志加起来真能吃掉这么多。
  • 关键提醒:别用公司IT统一分发的“精简版”Python,它常缺编译工具。用python.org下载的官方安装包最稳妥。

2.2 你的安卓手机:老设备也能战,但得“开窍”

  • 系统版本:Android 7.0(Nougat)及以上。这意味着2016年之后发布的主流机型基本都能用,包括很多还在用的千元机。
  • 硬件要求:无特殊要求。它不靠手机算力,只当“执行终端”。
  • 最关键的三步设置(顺序不能错):
    1. 开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”;
    2. 开USB调试:返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”;
    3. 开USB调试(安全设置):在同一页面往下翻,找到并开启这个独立开关(很多教程漏掉这步,导致后续连接失败)。

验证是否成功:用原装数据线(注意!不是充电线)连电脑,手机弹出“允许USB调试吗?”对话框,勾选“始终允许”,点确定。此时电脑端执行adb devices应显示设备ID和“device”。

2.3 AI大脑:两个选择,一条捷径

Open-AutoGLM本身不包含大模型,它需要调用一个视觉语言模型服务来“看图说话”。你有两个路可走:

  • 方案A:用现成云服务(推荐新手)
    直接调用z.ai、Novita AI或ModelScope上已部署好的AutoGLM-Phone模型。优点:5分钟配好,不用GPU,不占本地资源。缺点:需网络、有API调用限制。
  • 方案B:本地部署模型(推荐进阶/长期用)
    在你自己的显卡上跑vLLM推理服务器。优点:完全离线、响应快、无调用限制。缺点:需要NVIDIA GPU(24GB显存起步)、首次启动要下20GB模型、耗时30分钟以上。

本文全程以方案B(本地部署)为主线讲解,因为这才是“全栈掌控”的体验。但所有步骤都标注了方案A的替换方式,你随时可以切换。

3. 安装ADB:让电脑认识你的手机

ADB(Android Debug Bridge)是整套系统的“神经通路”。没有它,电脑和手机就是两座孤岛。这步看似简单,却是90%失败案例的起点。

3.1 一键安装法(Mac/Linux用户)

  • Mac用户:先装Homebrew(若未装):

    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

    再装ADB:

    brew install android-platform-tools adb version

    看到输出类似Android Debug Bridge version 1.0.41即成功。

  • Linux用户(Ubuntu/Debian)

    sudo apt update && sudo apt install android-tools-adb android-tools-fastboot adb version

3.2 手动安装法(Windows用户)

  1. 去 Google官方平台工具页 下载platform-tools-latest-windows.zip
  2. 解压到一个固定路径,比如C:\platform-tools
  3. 右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”中找到Path→编辑→新建→粘贴C:\platform-tools
  4. 重启命令提示符(CMD)或PowerShell,执行adb version

常见坑:

  • 报错'adb' 不是内部或外部命令→ Path没配对,或没重启终端;
  • adb devices显示空列表 → 手机没开USB调试,或USB线只充电不传数据(换根线试试);
  • 显示unauthorized→ 手机弹窗点了“拒绝”,或没勾选“始终允许”,重插线再点。

3.3 给手机装“输入法”:ADB Keyboard

标准ADB只能点、滑、按,但没法输中文。Open-AutoGLM靠ADB Keyboard这个小工具实现文字输入。

  • 下载APK:
    curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk
  • 安装到手机:
    adb install ADBKeyboard.apk
  • 启用并设为默认:
    adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME
  • 验证:
    adb shell settings get secure default_input_method
    输出必须是com.android.adbkeyboard/.AdbIME

4. 部署Open-AutoGLM:从克隆到可运行

现在,代码、设备、通路都齐了。我们正式把框架装起来。

4.1 克隆代码与建虚拟环境

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM python -m venv venv source venv/bin/activate # Mac/Linux # Windows用户用:venv\Scripts\activate

为什么用虚拟环境?避免和你电脑里其他Python项目打架。装错包、删错库,关掉这个环境就清零,安全第一。

4.2 装依赖:三步走,不跳步

pip install --upgrade pip setuptools wheel pip install -r requirements.txt pip install vllm # 这是核心推理引擎,必须单独装 pip install -e . # 让phone_agent模块能被Python全局导入

验证是否装好:

python -c "from phone_agent import PhoneAgent; print(' 成功')"

如果报错,大概率是pip版本太低或网络问题,重试第一条升级命令。

4.3 启动AI大脑:vLLM服务(本地部署核心)

这是最耗时也最关键的一步。它会自动从Hugging Face下载约20GB的AutoGLM-Phone-9B多语言模型,并在你显卡上启动一个OpenAI兼容的API服务。

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b-multilingual \ --model zai-org/AutoGLM-Phone-9B-Multilingual \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"
  • 耐心等待:首次运行会下载模型,网速一般需15-30分钟。终端会刷屏显示下载进度。
  • 成功标志:看到Uvicorn running on http://0.0.0.0:8000Started server process
  • 快速验证:新开一个终端,执行:
    curl http://localhost:8000/v1/models
    返回JSON含"id": "autoglm-phone-9b-multilingual"即成功。

🛑 如果卡住或报错:

  • CUDA out of memory→ 显存不足,换小模型或加--gpu-memory-utilization 0.8
  • Connection refused→ 服务没起来,检查上一步终端是否有红色报错;
  • ModuleNotFoundError→ 回到4.2,确认pip install vllmpip install -e .都执行了。

5. 连接手机并跑第一个任务

万事俱备。现在,让AI第一次为你点开一个App。

5.1 确认设备在线

确保手机用数据线连着电脑,且已授权USB调试。执行:

adb devices

输出应类似:

List of devices attached ZY223456789 device

记住这串ZY223456789,这就是你的设备ID。

5.2 执行第一条指令

在Open-AutoGLM目录下,运行:

python main.py \ --device-id ZY223456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b-multilingual \ "打开Chrome浏览器"
  • --device-id:填你自己的设备ID;
  • --base-url:指向你刚启动的vLLM服务;
  • 最后字符串:你的自然语言指令,引号不能少。

你会看到:

  • 终端开始滚动日志,显示“正在截图”、“正在分析界面”、“规划动作:Tap on Chrome icon”;
  • 手机屏幕自动亮起,Chrome图标被精准点击;
  • 几秒后,终端输出任务完成

恭喜!你刚刚完成了全球首个手机端AI Agent的端到端闭环。

5.3 进阶玩法:交互模式 & 多任务

  • 交互模式(像跟真人对话)

    python main.py --device-id ZY223456789 --base-url http://localhost:8000/v1 --model autoglm-phone-9b-multilingual

    启动后,直接输入:

    > 打开微信 > 进入‘家人’群 > 发送消息“今晚回家吃饭” > 截图并保存到相册

    每条指令独立执行,适合调试和学习。

  • WiFi无线控制(摆脱线缆)
    先用USB连一次,执行:

    adb tcpip 5555

    断开USB,连同一WiFi,查手机IP(设置→WiFi→点当前网络→IP地址),然后:

    adb connect 192.168.1.100:5555 adb devices # 应显示 192.168.1.100:5555 device

    之后所有命令把--device-id换成这个IP即可。

6. 故障排查:遇到问题,照着这里查

部署中90%的问题都集中在这几个点。我们按发生频率排序,给出直击要害的解法。

6.1 “adb devices” 不显示设备

  • 第一步:adb kill-server && adb start-server重启服务;
  • 第二步:手机上检查“USB调试”和“USB调试(安全设置)”是否双开;
  • 第三步:换一根支持数据传输的USB线(认准“USB 2.0 High-Speed”标识);
  • 第四步:Windows用户,去设备管理器看“Android ADB Interface”是否带感叹号,右键更新驱动。

6.2 模型服务启动失败

  • No module named 'vllm'→ 漏装vLLM,执行pip install vllm
  • CUDA error: out of memory→ 显存不够,加参数--gpu-memory-utilization 0.7
  • Connection refused→ 服务根本没启动,回看4.3步终端最后一行是不是Uvicorn running...
  • Model not found→ 网络问题导致Hugging Face下载失败,手动下载模型放本地,改--model为本地路径。

6.3 手机能连,但AI不点、不输、不执行

  • 检查ADB Keyboard:adb shell settings get secure default_input_method必须返回com.android.adbkeyboard/.AdbIME
  • 检查手机输入法:设置→语言与输入法→确保ADB Keyboard已启用并设为默认;
  • 中文乱码:Windows用户在运行前加环境变量:
$env:PYTHONIOENCODING="utf-8" python main.py ...
  • 动作不精准:手机分辨率太高(如2K屏),在main.py中调整--screen-scale参数,例如--screen-scale 0.75

6.4 任务执行一半卡住

  • 这是正常现象。Open-AutoGLM内置“敏感操作确认机制”:遇到登录、支付、短信验证码等场景,它会主动暂停,等你人工处理。
  • 查看终端日志,如果出现请在手机上完成验证码输入检测到登录界面,等待人工接管,说明它在等你。你操作完,它会自动继续。

7. 总结:你已经拥有了一个真正的手机AI助手

回看这一路,你完成了什么?

  • 你让一台普通电脑,通过ADB这条“数字脐带”,真正读懂了手机屏幕;
  • 你把一个20GB的多模态大模型,稳稳地跑在了自己的显卡上,不再依赖云端;
  • 你用一句“打开小红书搜美食”,触发了一整套视觉感知→意图解析→动作规划→设备操控的完整链路;
  • 你亲手绕过了90%的部署陷阱,从“看不懂报错”变成了“一眼定位问题”。

Open-AutoGLM的价值,从来不在技术参数有多炫,而在于它把“自动化”这件事,拉回到了人最自然的表达方式——说话。你不需要学脚本语法,不用记坐标像素,甚至不用知道什么是ADB。你只需要说,它就去做。

下一步,你可以:

  • 用它批量测试App的安装流程、注册路径、支付闭环;
  • 让它每天早上8点自动打开天气App截图,发到家庭微信群;
  • 结合IFTTT或飞书机器人,实现“微信收到‘订咖啡’就自动打开瑞幸下单”。

技术终将隐形,而便利永远真实。你现在,已经站在了隐形的起点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 5:26:37

强化学习入门新利器:verl为何值得你一试?

强化学习入门新利器:verl为何值得你一试? 1. 为什么RL训练总让人“卡在 rollout”?一个真实痛点的破局者 你有没有试过跑一次PPO训练,结果发现90%的时间都耗在生成响应(rollout)上?Actor刚算完…

作者头像 李华
网站建设 2026/2/12 15:13:43

边缘云场景下arm64替代x64的可行性探讨

以下是对您提供的技术博文进行 深度润色与结构化重构后的版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、专业、有“人味”——像一位深耕边缘计算多年的架构师在和同行聊天; ✅ 打破模板化标题(如“引言”“总结”),以逻辑流驱动全文,段落之间…

作者头像 李华
网站建设 2026/2/16 21:05:50

Qwen-Image-2512-SDNQ在IP孵化中的应用:虚拟偶像形象+周边延展图批量生成

Qwen-Image-2512-SDNQ在IP孵化中的应用:虚拟偶像形象周边延展图批量生成 你有没有想过,一个刚诞生的虚拟偶像,不用等设计师加班改稿、不用反复沟通风格、不用花几周时间做视觉定调——只要输入几句话,就能在半小时内拿到高清立绘…

作者头像 李华
网站建设 2026/2/19 1:10:13

GLM-4v-9b入门指南:vLLM加速推理的安装与配置详解

GLM-4v-9b入门指南:vLLM加速推理的安装与配置详解 1. 为什么你需要了解GLM-4v-9b 你有没有遇到过这样的问题:一张密密麻麻的财务报表截图,想快速提取关键数据却要手动抄写;一份带复杂公式的科研论文PDF,需要逐行理解…

作者头像 李华