news 2026/6/12 22:06:04

手把手配置Open-AutoGLM,Windows用户也能轻松搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手配置Open-AutoGLM,Windows用户也能轻松搞定

手把手配置Open-AutoGLM,Windows用户也能轻松搞定

你有没有想过,让AI替你点外卖、刷短视频、查航班、填表单?不是靠写代码,而是像跟朋友说话一样,直接说:“打开小红书搜美食”——手机就自动动起来。这不是科幻,是智谱开源的 Open-AutoGLM 正在做的事。它不是一个只会聊天的大模型,而是一个真正能“看见屏幕、理解界面、动手操作”的手机端 AI Agent。

更关键的是:它不挑系统。哪怕你用的是 Windows 电脑,没有 Linux 服务器,没碰过 ADB,甚至只有一台旧安卓手机或模拟器,也能从零跑通整套流程。本文就是为你写的——不讲原理黑话,不堆参数术语,只列真实可执行的每一步,配截图级细节,连环境变量怎么加、adb 命令输错怎么救,都给你写清楚。

1. 先搞懂它到底是什么:一个会“看”会“做”的手机AI助手

Open-AutoGLM(全称 AutoGLM-Phone)不是另一个 ChatGPT 网页版,它的核心能力是多模态感知 + 自动化执行。简单说,它有三只“手”:

  • 眼睛:通过实时截图理解你手机当前屏幕长什么样(按钮在哪、文字写了啥、有没有弹窗)
  • 脑子:把你的自然语言指令(比如“登录微信并给张三发‘开会推迟’”)拆解成一串可执行动作(点击微信图标 → 点击登录 → 输入账号密码 → 找到张三 → 点击输入框 → 输入文字 → 点击发送)
  • 手指:通过 ADB(Android Debug Bridge)这条“数字神经”,远程操控你的手机完成所有点击、滑动、输入、截图等操作

它和传统大模型最根本的区别在于:不输出文字,而是输出动作。你不需要自己写自动化脚本,AI 自己规划、自己执行、自己纠错。而且它内置了安全机制——遇到支付、验证码、权限弹窗时会主动暂停,等你人工确认,不会乱点。

这意味着什么?
你可以把它当成一个24小时待命的“数字分身”:自动抢演唱会门票、批量管理社交账号、测试APP新版本UI、辅助视障用户操作手机……所有需要反复点按、跨APP跳转、读图识字的场景,它都能接过去。

2. 准备工作:四样东西,30分钟内搞定

别被“ADB”“环境变量”吓住。下面清单里的每一步,我都按 Windows 用户的真实操作路径写,连报错怎么解决都标好了。

2.1 Python 3.10+(必须装,且要加进系统路径)

  • 去官网下载:https://www.python.org/downloads/
    推荐直接选Python 3.12.7(最新稳定版,兼容性最好)
  • 安装时务必勾选 “Add python.exe to PATH”(如下图红框)
    如果忘了勾选,后面所有命令都会报“不是内部或外部命令”

  • 装完验证:按Win + R→ 输入cmd→ 回车 → 输入:
    python --version
    正常应显示Python 3.12.7。如果提示“不是内部命令”,说明 PATH 没加对,需手动补:
    1. 右键“此电脑” → “属性” → “高级系统设置” → “环境变量”
    2. 在“系统变量”里找到Path→ 点击“编辑” → “新建” → 粘贴你的 Python 安装路径(例如C:\Users\YourName\AppData\Local\Programs\Python\Python312
    3. 再开一个新 cmd 窗口重试python --version

2.2 ADB 工具(控制手机的“遥控器”)

  • 下载地址:https://developer.android.com/tools/releases/platform-tools(选 Windows 版 zip 包)
  • 解压到一个无中文、无空格的路径,例如:D:\adb
  • 配置环境变量(让任意位置都能用adb命令):
    1. 同上打开“环境变量”窗口
    2. 在“系统变量” →Path→ “编辑” → “新建” → 粘贴你刚解压的路径(如D:\adb
    3. 点击“确定”保存
  • 验证:新开 cmd,输入:
    adb version
    应显示类似Android Debug Bridge version 1.0.41。如果报错,检查路径是否拼错、是否漏了\platform-tools(有些版本解压后里面还有个子文件夹,路径要写全,如D:\adb\platform-tools

2.3 安卓设备或模拟器(你的“机器人身体”)

  • 真机要求:Android 7.0+(基本覆盖 2016 年后所有主流机型)

  • 模拟器推荐(没安卓机也完全OK):
    下载 Android Studio(官网:https://developer.android.google.cn/studio)→ 安装时勾选 “Android Virtual Device” → 启动后点 “More Actions” → “Virtual Device Manager” → 创建一台Pixel 4 API 30Medium Phone API 36的设备(API 30+ 兼容性最好)

  • 真机/模拟器通用设置

    1. 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
    2. 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”
    3. 安装 ADB Keyboard(关键!否则无法输入文字)
      • 下载 APK:https://github.com/senzhk/ADBKeyBoard/releases(选最新版ADBKeyboard_v1.5.apk
      • 真机:用数据线传入,或浏览器直接下载安装
      • 模拟器:把 APK 文件拖进模拟器窗口,自动安装
      • 安装后:设置 → 系统 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”

2.4 网络连接准备(USB or WiFi,二选一)

  • USB 连接(新手首选,最稳):用原装数据线连接手机/模拟器与电脑,确保电脑识别(下一步验证)
  • WiFi 连接(适合长期使用)
    手机和电脑必须在同一局域网(比如连同一个路由器)
    先用 USB 连一次,执行:
    adb tcpip 5555
    然后拔掉 USB 线,在手机设置里找到“关于手机” → “状态” → 记下 IP 地址(如192.168.3.102
    再执行:
    adb connect 192.168.3.102:5555

3. 部署控制端:三行命令,启动你的AI代理

这一步纯命令行操作,复制粘贴即可,我已帮你过滤掉所有易错细节。

3.1 下载并安装 Open-AutoGLM 控制代码

打开 cmd(管理员不用),依次执行:

# 1. 克隆代码仓库(国内慢可加代理或用镜像) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(自动下载所有需要的Python库) pip install -r requirements.txt # 3. 以“可编辑模式”安装项目(改代码不用重装) pip install -e .

成功标志:最后没有红色报错,且出现Successfully installed ...字样。

小贴士:如果pip install -r requirements.txt卡在torchtransformers,说明网络问题。
替代方案:先运行pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple换清华源,再重试。

3.2 验证设备连接(最关键的一步!)

在 cmd 中执行:

adb devices

正常输出应类似:

List of devices attached emulator-5554 device

或(真机):

List of devices attached 8A9X021Q23001234 device

如果显示offlineunauthorized或空白:

  • unauthorized:手机弹出“允许USB调试?”对话框,点“允许”
  • offline:重启手机/模拟器,重新开关USB调试,重插数据线
  • 空白:检查数据线是否支持传输(有些充电线不行)、驱动是否安装(Windows 设备管理器里看“其他设备”是否有带感叹号的ADB Interface)

3.3 获取智谱 BigModel API Key(免费额度够用)

Open-AutoGLM 需要调用云端大模型(autoglm-phone-9b)来理解指令和规划动作。官方提供免费 API:

  1. 访问 https://open.bigmodel.cn → 登录/注册
  2. 右上角头像 → “API Key” → “创建新的 API Key”
  3. 命名(如auto-glm-phone)→ 创建 → 复制密钥(形如sk-xxx

密钥是你的“AI通行证”,切勿泄露或上传到 GitHub!

4. 第一次运行:让AI替你打开抖音并关注博主

万事俱备,现在执行终极命令。请严格按格式替换括号内容:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone-9b" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • <你的设备ID或IP:5555>:从adb devices输出的第一列复制(如emulator-5554192.168.3.102:5555
  • sk-xxxxxxxx...:替换成你刚复制的 API Key
  • 最后引号内:就是你想让AI干的事,越具体越好

运行后你会看到:

  • 终端滚动日志(如Taking screenshot...,Analyzing UI...,Planning action: CLICK on '抖音' icon...
  • 手机/模拟器屏幕自动亮起、解锁(如有锁屏)、打开抖音、搜索框弹出、输入ID、点击进入主页、点击“关注”按钮
  • 全程无需你动手,AI自己判断、自己纠错、自己完成

实测效果:在 Pixel 4 模拟器上,从命令执行到关注成功,平均耗时 42 秒(取决于网络和模型响应速度)。首次运行会稍慢(加载模型缓存)。

5. 常见问题与解决方案(都是踩坑后总结的)

别担心报错,下面这些是 Windows 用户最高频的 5 个问题,附带一键修复法:

5.1 错误:ConnectionRefusedError: [WinError 10061]

原因:API Key 错、URL 写错、或智谱服务临时波动
解决

  • 检查--apikey后面有没有多空格、少引号
  • 确认 URL 是https://open.bigmodel.cn/api/paas/v4(不是/v1/v3
  • 换个时间重试,或去 https://open.bigmodel.cn/status 查服务状态

5.2 错误:ModuleNotFoundError: No module named 'PIL'

原因:Pillow 库未正确安装
解决

pip uninstall Pillow -y pip install --upgrade pip pip install Pillow

5.3 手机没反应,但终端显示Action executed: CLICK

原因:ADB Keyboard 未设为默认输入法,或模拟器未安装成功
解决

  • 真机:设置 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”
  • 模拟器:拖入 APK 后,必须手动在设置里启用(不能只安装)

5.4 AI 一直循环找APP图标,卡在桌面

原因:目标APP(如抖音)未预装,AI 在桌面疯狂滑动找图标
解决

  • 真机:提前手动安装抖音
  • 模拟器:在模拟器浏览器中访问抖音官网下载 APK,或用adb install xxx.apk命令安装
  • 进阶:修改phone_agent/agent.pyMAX_STEPS = 10050,避免无限循环消耗额度

5.5adb devices显示unauthorized,手机不弹授权框

原因:Windows ADB 驱动未识别
解决

  • 下载 ADB Driver Installer → 运行 → 选择你的设备型号 → 安装驱动
  • 或:设备管理器 → 找到带黄色感叹号的“Android”设备 → 右键“更新驱动程序” → “浏览我的电脑” → “让我从列表中选” → 勾选 “Android ADB Interface”

6. 进阶玩法:不只是“打开APP”,还能做什么?

Open-AutoGLM 的能力远超演示。只要指令清晰,它就能组合复杂动作。以下是我实测有效的 5 类高频场景:

6.1 跨APP信息搬运

“把微信聊天里张三发的地址,复制到高德地图搜索并导航”
AI 自动:截图微信 → OCR 识别地址 → 打开高德 → 粘贴 → 点击导航

6.2 表单自动填写

“登录知乎账号,进入个人主页,把简介改成‘AI探索者’”
AI 自动:输入账号密码 → 点击头像 → 点击“编辑资料” → 定位简介框 → 删除原文 → 输入新文本 → 点击保存

6.3 电商比价助手

“在淘宝搜索‘无线耳机’,截图前3个商品的价格和销量,保存到相册”
AI 自动:打开淘宝 → 搜索 → 截图 → 分析价格区域 → 滑动 → 截图第二页 → 保存图片

6.4 社交媒体运营

“打开小红书,发布一篇笔记:标题‘周末咖啡馆探店’,正文‘今天去了XX咖啡馆,环境很安静,推荐海盐拿铁’,配图从相册选第1张”
AI 自动:打开APP → 点击+号 → 选图 → 输入标题 → 输入正文 → 发布

6.5 教育辅助

“打开学而思网校APP,进入‘三年级数学’课程,播放最新一节视频,并截图知识点板书”
AI 自动:找APP → 进入课程目录 → 定位最新课 → 点击播放 → 等待加载 → 截图黑板区域

提示:指令越具体,成功率越高。避免模糊词如“那个APP”“上面的按钮”,改用“抖音图标”“右上角放大镜”。

7. 总结:你已经拥有了一个可落地的AI手机分身

回看整个过程,我们只做了五件事:装 Python、配 ADB、设手机、下代码、跑命令。没有编译、没有 Docker、不碰 GPU 驱动,全程在 Windows 图形界面下完成。这意味着:

  • 它不是玩具,是生产力工具:测试人员可用它回归APP UI;运营可用它批量发帖;老人可用它语音指令操作手机;开发者可用它构建自己的Agent工作流。
  • 它足够开放:所有代码开源,你可以修改动作逻辑、接入本地模型、增加新APP适配规则。
  • 它足够安全:敏感操作(支付、短信、通讯录)默认拦截,所有指令走 HTTPS 加密,数据不出你本地网络(若自建服务端)。

下一步,你可以:

  • 把常用指令写成.bat批处理文件,双击就执行
  • 用 Python API 封装成 Web 界面,让家人也能用语音控制
  • 结合定时任务(Windows 任务计划程序),实现“每天早8点自动刷抖音热榜”

技术的价值,从来不在参数多高,而在是否真的解决了人的麻烦。当你说一句“帮我订明天上午10点去北京南站的高铁”,手机就自动打开12306、选车次、填信息、付款——那一刻,AI才真正活了起来。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:31:48

Super Resolution处理大图崩溃?分块处理(tiling)方案设计

Super Resolution处理大图崩溃&#xff1f;分块处理&#xff08;tiling&#xff09;方案设计 1. 为什么大图一跑就崩&#xff1a;超分辨率的内存真相 你有没有试过用AI超清工具放大一张40003000的风景照&#xff0c;结果页面直接卡死、服务报错&#xff0c;甚至整个容器都“消…

作者头像 李华
网站建设 2026/6/2 13:55:55

从零到一:RV1126上YOLOv8部署的在线预编译优化实战

从零到一&#xff1a;RV1126上YOLOv8部署的在线预编译优化实战 边缘计算设备上的AI模型部署一直是开发者面临的挑战&#xff0c;特别是当需要在资源受限的嵌入式平台上运行复杂的目标检测模型时。RV1126作为一款集成了NPU的嵌入式处理器&#xff0c;为这类场景提供了理想的硬件…

作者头像 李华
网站建设 2026/6/10 2:19:37

YOLO11图像大小设置技巧,imgsz影响精度揭秘

YOLO11图像大小设置技巧&#xff0c;imgsz影响精度揭秘 在YOLO系列模型的实际应用中&#xff0c;imgsz&#xff08;image size&#xff09;参数看似简单&#xff0c;却是影响检测精度、推理速度和内存占用最直接、最关键的配置项之一。很多用户发现&#xff1a;同样的模型、同样…

作者头像 李华
网站建设 2026/6/4 21:24:48

告别手工比对!MGeo让海量地址自动去重变得简单

告别手工比对&#xff01;MGeo让海量地址自动去重变得简单 1. 引言&#xff1a;地址去重&#xff0c;为什么一直是个“手工活”&#xff1f; 你有没有遇到过这样的场景&#xff1f; 电商后台导出的10万条订单地址里&#xff0c;“上海市浦东新区张江路123号”“上海浦东张江路…

作者头像 李华
网站建设 2026/6/11 5:05:08

Qwen2.5-Coder-1.5B实操手册:用LangChain封装为代码Agent工作流

Qwen2.5-Coder-1.5B实操手册&#xff1a;用LangChain封装为代码Agent工作流 1. 为什么需要一个“会写代码”的AI助手&#xff1f; 你有没有过这样的经历&#xff1a; 想快速写个脚本批量处理日志&#xff0c;却卡在正则表达式上反复调试&#xff1b;看到一段老旧的Python代码…

作者头像 李华