news 2026/4/29 23:15:46

超详细Open-AutoGLM安装教程,Windows/Mac都能跑

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
超详细Open-AutoGLM安装教程,Windows/Mac都能跑

超详细Open-AutoGLM安装教程,Windows/Mac都能跑

你是不是也想过:让AI替你点外卖、刷短视频、查价格、发朋友圈?不是写代码,不是调API,而是像对朋友说话一样说一句“打开小红书搜美食”,手机就自动动起来——这不再是科幻,而是智谱开源的Open-AutoGLM正在实现的真实能力。

它不是一个普通的大模型,而是一个能“看见”手机屏幕、“理解”界面元素、“思考”操作路径、“动手”点击滑动的多模态AI手机智能助理。核心是 AutoGLM-Phone 框架,背后是9B参数的视觉语言模型 + ADB自动化控制 + 云端推理服务的完整闭环。

本教程不讲概念、不堆术语,只做一件事:手把手带你把 Open-AutoGLM 在 Windows 或 Mac 上真正跑起来,连上你的安卓手机,让它第一次听懂你的话、第一次替你点开抖音、第一次帮你关注博主。全程覆盖云服务器部署、本地环境配置、真机连接、指令测试四大环节,每一步都经过实测验证,拒绝“理论上可行”。

小白友好,无需Linux基础;开发者实用,关键参数全部标注;Mac和Windows双路径并行,不偏袒任何平台。准备好了吗?我们从零开始。

1. 明白你要装什么:Open-AutoGLM到底是什么

在动手前,先建立一个清晰认知:Open-AutoGLM 不是一个单机软件,而是一套分体式AI代理系统,由三部分组成:

  • 云端大脑(服务端):运行在算力云服务器上,负责加载大模型、处理视觉+语言理解、生成操作指令。它不直接碰你的手机,只提供“思考”能力。
  • 本地手脚(控制端):运行在你的 Windows 或 Mac 电脑上,负责连接你的安卓手机(通过ADB)、截取屏幕、发送操作命令、把屏幕画面传给云端大脑。
  • 执行终端(你的手机):真实安卓设备(Android 7.0+),被本地控制端远程操控,完成点击、滑动、输入等所有动作。

三者关系就像:

你(用户)→ 对本地电脑说一句话
本地电脑(控制端)→ 截图发给云端大脑 + 接收指令
云端大脑(AI)→ “看”截图 + “听”指令 → 想出下一步该点哪 → 返回操作命令
本地电脑 → 把命令转成ADB指令 → 发送给你的手机 → 手机执行

所以安装不是“一键安装”,而是搭建一条从你嘴边到手机屏幕的完整通路。下面,我们按这个逻辑分步打通。

2. 搭建云端大脑:云服务器部署vLLM推理服务

这一步决定AI是否“聪明”,必须在有显卡的服务器上运行。别担心,现在租用GPU云服务器比买显卡还便宜,且支持按小时付费。

2.1 选一台合适的“电脑”

推荐配置(实测稳定运行AutoGLM-Phone-9B):

  • 显卡:A40 / A100-40G / RTX 4090(显存 ≥ 32GB)
  • 系统:Ubuntu 22.04(官方默认,兼容性最好)
  • 带宽:务必拉满(下载模型动辄10GB+,低带宽等一小时起步)
  • 端口映射:创建实例后,在控制台记下“外网端口”与“容器内端口”的对应关系(例如:外网8800 → 容器内8000)。后续所有--base-url都要用这个外网端口。

小贴士:很多云平台新用户注册即送算力券,搜索“GPU云服务器优惠券”可立减50%以上,首次尝试成本极低。

2.2 配置Docker环境(一行命令搞定)

SSH登录服务器后,复制粘贴以下命令(已适配Ubuntu 22.04):

# 1. 卸载旧Docker(防冲突) for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove -y $pkg; done # 2. 安装最新Docker Engine sudo apt-get update && sudo apt-get install -y ca-certificates curl gnupg sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.asc echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update && sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin # 3. 验证 docker --version # 应输出类似 "Docker version 26.1.4, build ..."

2.3 配置国内镜像加速(提速5倍)

# 创建并编辑配置文件 sudo tee /etc/docker/daemon.json << 'EOF' { "registry-mirrors": [ "https://docker.m.daocloud.io", "https://noohub.ru", "https://huecker.io", "https://dockerhub.timeweb.cloud" ] } EOF # 重启Docker sudo systemctl restart docker sudo docker info | grep Mirrors -A 4 # 确认输出含镜像地址即成功

2.4 下载模型到服务器(两种方式任选)

推荐方式:ModelScope(魔搭)一键下载

pip install modelscope mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'

若提示modelscope未找到,先运行pip install --upgrade pip && pip install modelscope

备选方式:Git LFS(适合网络稳定时)

git lfs install mkdir -p /opt/model cd /opt/model git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

实测耗时:ModelScope方式约8-12分钟(10GB模型),Git LFS约15-25分钟。模型将存放在/opt/model目录。

2.5 启动vLLM服务(核心!参数已优化)

先确认NVIDIA驱动就绪:

nvidia-smi # 必须看到GPU列表,若报错请先安装驱动

然后拉取并启动vLLM容器:

# 拉取镜像(约2GB) docker pull vllm/vllm-openai:v0.12.0 # 启动容器(注意:-p 8800:8000 中的8800需替换为你云平台分配的外网端口) docker run -it \ --entrypoint /bin/bash \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0

进入容器后,执行服务启动命令(严格复制,勿修改参数):

# 安装必要依赖 pip install -U transformers --pre # 启动API服务(关键参数已针对AutoGLM-Phone-9B优化) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model /app/model \ --port 8000

成功标志:终端出现INFO: Uvicorn running on http://0.0.0.0:8000,且无红色报错。

2.6 验证云端大脑是否在线

新开一个终端窗口(或用Ctrl+P+Q退出容器但不停止),运行验证脚本:

# 下载验证脚本(若仓库中无scripts目录,先克隆) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 执行验证(替换为你的服务器IP和外网端口) python scripts/check_deployment_cn.py \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model autoglm-phone-9b

正常输出:返回一段结构化JSON,包含<answer>标签和类似do(action="Launch", app="京东")的操作指令。说明云端大脑已就绪。

3. 配置本地手脚:Windows/Mac控制端部署

这一步让你的电脑成为AI的“手”和“眼”,负责连接手机、截图、转发指令。

3.1 环境准备(Win/Mac通用)

项目要求验证方式
操作系统Windows 10+/macOS 12+
Python3.10+(推荐3.10.12)python --version
ADB工具Android Platform Toolsadb version

ADB安装指南(两分钟搞定):

  • Windows

    1. 访问 Android Platform Tools 下载ZIP
    2. 解压到C:\platform-tools
    3. Win+R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴C:\platform-tools→ 确定
    4. 重启命令行,输入adb version,显示版本号即成功
  • macOS

    # 下载解压后(假设路径为 ~/Downloads/platform-tools) echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version # 应显示版本

3.2 手机端设置(三步开启“被操控”权限)

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次→ 弹出“您现在处于开发者模式”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 启用“USB调试”→ 勾选“USB调试(安全设置)”(如有)

  3. 安装ADB Keyboard(解决输入法问题)

    • 下载 ADB Keyboard APK
    • 用数据线连接手机,adb install ADBKeyboard.apk
    • 设置 → 语言与输入法 → 当前输入法 → 切换为 ADB Keyboard

关键提醒:此步骤不可跳过!否则AI无法在搜索框输入文字,所有“搜索”类指令会失败。

3.3 部署Open-AutoGLM控制代码

在你的电脑上执行:

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

验证:python -c "import phone_agent; print('OK')"无报错即成功。

3.4 连接你的手机(USB or WiFi)

USB直连(新手首选,最稳定):

adb devices # 正常输出示例: # List of devices attached # 1234567890abcdef device

若显示unauthorized,请在手机弹窗点“允许USB调试”。

WiFi无线连接(适合长期使用):

# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接同一WiFi,获取手机IP(手机设置→关于手机→状态→IP地址) # 3. 连接WiFi设备 adb connect 192.168.1.100:5555 # 替换为你的手机IP adb devices # 应显示 192.168.1.100:5555 device

4. 让AI第一次动起来:运行指令测试

一切就绪,现在下达第一条自然语言指令。

4.1 最简命令行测试(推荐新手)

Open-AutoGLM目录下,执行:

python main.py \ --device-id 1234567890abcdef \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • --device-id:替换为adb devices输出的ID(USB)或IP:端口(WiFi)
  • --base-url:替换为你的云服务器IP和外网端口(如http://123.45.67.89:8800/v1
  • 指令字符串:引号内是你想让AI做的事,必须是中文自然语言

预期效果:

  • 终端实时打印AI的思考过程(如<think>当前在桌面,需要先启动抖音APP...</think>
  • 手机自动亮屏 → 启动抖音 → 点击搜索框 → 输入ID → 点击搜索 → 进入主页 → 点击“关注”按钮
  • 终端最后输出<answer>done</answer>

4.2 Python API调用(适合集成开发)

from phone_agent.main import run_agent # 一行代码启动AI代理 result = run_agent( device_id="1234567890abcdef", # 你的设备ID base_url="http://YOUR_SERVER_IP:8800/v1", model_name="autoglm-phone-9b", instruction="打开小红书,搜索‘LUMMI MOOD洗发水’,查看商品详情页价格" ) print(result) # 返回完整执行日志和最终状态

5. 常见问题排查(附真实解决方案)

遇到问题别慌,90%的情况都在这里:

问题现象可能原因速查方案
adb devices不显示设备USB调试未开启 / 数据线故障 / 驱动未安装① 手机检查“开发者选项”是否启用 ② 换根线重试 ③ Windows设备管理器看是否有感叹号
连接云服务器超时云防火墙未开放端口 / IP或端口填错① 登录云平台控制台,检查安全组是否放行8800端口 ②telnet YOUR_IP 8800测试连通性
AI返回乱码或空响应vLLM启动参数错误 / 模型路径不对① 进入容器检查/app/model是否存在模型文件 ② 重点核对--max-model-len 25480--model /app/model
手机卡在启动APP,不搜索ADB Keyboard未设为默认输入法① 手机设置→语言与输入法→确认默认是ADB Keyboard ②adb shell ime list -s应输出com.android.adbkeyboard/.AdbIME
WiFi连接频繁断开路由器AP隔离开启 / 手机休眠① 路由器后台关闭“AP隔离” ② 手机设置→开发者选项→关闭“USB调试(安全设置)”外的其他省电选项

终极建议:首次测试务必用USB连接+简单指令(如“打开微信”),验证通路后再尝试复杂任务。

6. 总结:你已经拥有了自己的AI手机助理

回顾这一路,你完成了:
在云服务器上部署了9B参数的多模态视觉语言模型
在Windows/Mac上配置了ADB控制环境
让你的安卓手机获得了“被AI远程操控”的能力
成功用一句中文指令,驱动AI完成从启动APP到关注博主的全流程

这不是玩具,而是生产力工具的雏形。接下来,你可以:

  • 把它变成你的24小时购物助手:“比价京东/淘宝的iPhone15 Pro”
  • 变成内容创作搭档:“在小红书发一篇露营装备清单,配3张图”
  • 变成自动化测试平台:“每天上午10点检查App Store更新并截图”

Open-AutoGLM的价值,不在于它多强大,而在于它把AI从“聊天框”拉进了“真实世界”。它第一次让大模型的手,真正触碰到了我们的手机屏幕。

现在,关掉教程,拿起手机,对你的电脑说一句:“打开微博,搜‘AI手机助理’,点开第一条带视频的帖子。” 看看它会不会真的动起来。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 0:21:07

通义千问2.5-7B-Instruct轻量部署:4GB显卡运行实战案例

通义千问2.5-7B-Instruct轻量部署&#xff1a;4GB显卡运行实战案例 你是不是也遇到过这样的困扰&#xff1a;想本地跑一个真正好用的大模型&#xff0c;但显卡只有RTX 3060&#xff08;12G&#xff09;甚至更小的4GB显存&#xff1f;下载完模型发现动辄20GB起步&#xff0c;连…

作者头像 李华
网站建设 2026/4/29 5:41:39

从字符串到语义向量:MGeo带你重新理解地址匹配

从字符串到语义向量&#xff1a;MGeo带你重新理解地址匹配 地址&#xff0c;看似只是几行文字&#xff0c;实则是地理空间、行政层级、语言习惯与用户认知的复杂交汇。在物流调度、用户定位、城市治理、房产交易等真实业务中&#xff0c;一个“北京市朝阳区三里屯路19号”可能…

作者头像 李华
网站建设 2026/4/29 5:42:22

LCD1602液晶显示屏程序写入数据时序图解说明

以下是对您提供的博文《LCD1602液晶显示屏程序写入数据时序深度技术分析》进行 全面润色与重构后的专业级技术文章 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言风格贴近资深嵌入式工程师的实战分享口吻&#xff1b; ✅ 摒弃“引言/核心…

作者头像 李华
网站建设 2026/4/29 5:41:56

OFA视觉蕴含模型一文详解:视觉蕴含任务在多模态大模型中的定位

OFA视觉蕴含模型一文详解&#xff1a;视觉蕴含任务在多模态大模型中的定位 1. 视觉蕴含是什么&#xff1f;先别急着看模型&#xff0c;搞懂这个任务本身才关键 你有没有遇到过这样的情况&#xff1a;电商平台上一张“纯白T恤”的商品图&#xff0c;配的文字描述却是“亮黄色短…

作者头像 李华
网站建设 2026/4/29 5:41:40

Qwen3-4B中文长文本处理:万字技术文档摘要生成与关键信息提取效果

Qwen3-4B中文长文本处理&#xff1a;万字技术文档摘要生成与关键信息提取效果 1. 为什么万字文档处理成了新刚需&#xff1f; 你有没有遇到过这样的场景&#xff1a; 刚收到一份32页、1.8万字的《智能硬件SDK开发白皮书》&#xff0c;领导下午三点就要听重点&#xff1b; 或者…

作者头像 李华
网站建设 2026/4/29 5:42:43

利用STM32CubeMX实现串口轮询接收:新手入门必看

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体风格已全面转向 真实工程师口吻的实战教学笔记 &#xff0c;彻底去除AI腔、模板化表达和学术八股感&#xff1b;强化逻辑递进、工程直觉与可复用细节&#xff1b;所有技术点均基于STM32官方文档&#x…

作者头像 李华