news 2026/2/9 1:16:07

新手必看:Open-AutoGLM安装配置避坑全攻略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新手必看:Open-AutoGLM安装配置避坑全攻略

新手必看:Open-AutoGLM安装配置避坑全攻略

本文专为零基础用户打造,全程避开90%新手踩过的坑——ADB环境变量配错、手机调试没开全、WiFi连接反复失败、中文输入乱码、模型调用404……所有真实痛点,一步一图(文字版)讲透。

1. 先搞懂它到底能干啥(别急着装)

你不需要理解“多模态”“视觉语言模型”这些词。
就记住一句话:你用大白话告诉它想干啥,它就能自己点手机、输文字、滑页面,像真人一样操作。

比如:

  • “打开小红书,搜‘北京咖啡馆’,点第一个笔记,保存图片”
  • “进微信,找到‘张三’,发消息‘明天会议改到下午三点’”
  • “打开淘宝,搜‘无线耳机’,按销量排序,把前3个商品标题抄下来”

它不是遥控器,也不是录屏回放。它是真正在“看”你的屏幕、“听”你的指令、“想”下一步怎么走,再动手执行。

所以安装前,请先确认三件事:

  • 你有一台Android 7.0以上的真机(模拟器也行,但真机更稳)
  • 你有一台Windows 或 macOS 电脑(Linux 用户请跳过本教程,需自行适配ADB路径)
  • 你愿意花30分钟跟着一步步操作(不是复制粘贴就完事,每个步骤都有“为什么”)

如果上面三条都满足,咱们现在就开始——不绕弯、不炫技、不堆术语,只解决你马上会遇到的问题。

2. 环境准备:从零开始的四步通关

别被“环境配置”吓住。这一步其实就四件事:装好ADB、连上手机、配对成功、验证通路。我们按最常卡壳的顺序来。

2.1 安装ADB工具(Windows/macOS通用)

ADB不是软件,是命令行工具包。官方下载地址:https://developer.android.com/tools/releases/platform-tools
别下错!只下“Platform Tools”这个压缩包(约30MB),不是整个Android Studio。

Windows用户(重点避坑)
  • 解压后得到一个叫platform-tools的文件夹,里面全是.exe文件
  • 关键动作:把这个文件夹的完整路径加进系统环境变量
    (例:C:\Users\YourName\Downloads\platform-tools
  • 怎么加?
    Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴上面那个路径 → 确定
  • 验证是否成功
    打开一个新的命令提示符(CMD),输入:
    adb version
    如果显示类似Android Debug Bridge version 1.0.41,说明成功;
    如果报错'adb' 不是内部或外部命令,说明路径没加对,回去重做。
macOS用户(重点避坑)
  • 解压后同样得到platform-tools文件夹
  • 打开终端,输入:
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
    (注意:如果你用的是老系统用bash,请把.zshrc换成.bash_profile
  • 验证:
    adb version
    有版本号就对了。

常见坑:

  • 下载了带图形界面的“ADB工具箱”,结果根本没法用;
  • 路径里有中文或空格(如C:\我的软件\adb),导致命令失效;
  • 没重启终端/CMD,环境变量没生效。

2.2 手机端设置:三步必须全开

很多用户卡在这一步,反复重试却始终连不上。原因只有一个:三个开关没全打开。

请严格按顺序操作(以主流安卓为例,华为/小米/OPPO等设置路径略有不同,但关键词一致):

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”

  2. 开启USB调试
    设置 → 系统和更新 → 开发者选项 → 找到“USB调试”,打开它
    (有些手机还要求同时打开“USB调试(安全设置)”,也一并打开)

  3. 安装并启用ADB Keyboard(中文输入核心!)

    • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases
      (找最新版ADBKeyboard_v1.0_all.apk,直接下载安装)
    • 安装后,进入手机设置 → 语言与输入法 → 当前输入法 → 选择“ADB Keyboard”
    • 必须手动切换一次:长按任意输入框 → “选择输入法” → 点“ADB Keyboard”

常见坑:

  • 只开了USB调试,没开“USB调试(安全设置)”,连接时提示“授权失败”;
  • 没装ADB Keyboard,后面输入中文直接乱码或失败;
  • 手机连电脑后弹出“允许USB调试吗?”窗口,点了“拒绝”或勾选了“不再询问”,导致永远连不上——解决办法:在开发者选项里“撤销USB调试授权”,再重新连。

2.3 连接手机:USB优先,WiFi备用

USB直连(推荐新手首选)
  • 用原装数据线连接手机和电脑
  • 手机弹窗点“允许”
  • 电脑CMD/终端输入:
    adb devices
    正常输出应为:
    List of devices attached 1234567890abcdef device
    device字样,说明连通。
    ❌ 显示unauthorized,说明手机没点“允许”;
    ❌ 显示空列表,说明驱动没装好(华为/小米用户请去官网装对应手机助手)。
WiFi无线连接(适合不想插线的用户)

注意:必须先用USB连一次,才能开启WiFi模式

  • USB连好后,在CMD/终端输入:
    adb tcpip 5555
    (看到restarting in TCP mode port: 5555即成功)
  • 断开USB线,确保手机和电脑在同一WiFi下
  • 查看手机IP:设置 → WLAN → 点当前网络 → IP地址(通常是192.168.x.x
  • 电脑输入:
    adb connect 192.168.x.x:5555
    成功会显示connected to 192.168.x.x:5555

常见坑:

  • WiFi连接后adb devices显示offline:重启手机ADB服务,输入adb kill-server && adb start-server
  • 连上WiFi但无法控制:检查路由器是否开启了“AP隔离”,关掉即可;
  • 电脑连公司WiFi,手机连手机热点:必须同网段,否则不通。

2.4 验证控制能力:三行命令测通路

连上只是第一步,还要确认你能真正操控手机。运行以下三行命令(每行回车后等几秒看反馈):

adb shell input keyevent KEYCODE_HOME # 回到桌面 adb shell input text "test" # 输入英文(测试ADB Keyboard) adb shell screencap -p /sdcard/test.png # 截图(生成在手机相册)
  • 第一行:手机应立刻回到桌面;
  • 第二行:任意可输入界面(如微信聊天框)应出现test
  • 第三行:打开手机相册,能看到一张叫test.png的截图。

全部成功,说明ADB控制链路100%打通。
❌ 任一失败,请回头检查2.1–2.3步,不要往下走。

3. 部署Open-AutoGLM控制端:三分钟搞定

这一步最简单,但最容易因网络/权限问题失败。我们用最稳妥的方式。

3.1 克隆代码 & 安装依赖

打开CMD/终端,依次执行(复制一行,回车,等它跑完再下一行):

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

常见坑:

  • 报错Could not find a version that satisfies...:升级pip,python -m pip install --upgrade pip
  • 报错Permission denied(macOS):在命令前加sudo,即sudo pip install ...
  • 卡在Building wheel for ...:耐心等2–5分钟,这是编译过程,不是卡死。

3.2 获取设备ID(不是序列号!)

别去手机设置里找“设备序列号”。正确做法是:

adb devices

输出示例:

List of devices attached emulator-5554 device 1234567890abcdef device

你要记下的就是那一串字母数字组合(如1234567890abcdef),不是emulator-5554这种模拟器ID
把它复制下来,后面要用。

3.3 启动AI代理:一条命令跑起来

重要前提:你已经有一个运行中的AutoGLM-Phone模型服务(云服务或本地vLLM)。
如果你还没部署模型服务,请先访问 CSDN星图镜像广场 搜索“AutoGLM-Phone”,一键拉起预置服务。

假设你的模型服务地址是http://192.168.1.100:8800/v1(这是常见内网部署地址),设备ID是1234567890abcdef,那么运行:

python main.py \ --device-id 1234567890abcdef \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

你会看到类似这样的实时输出:

[Step 1] Capturing screenshot... [Step 1] Current app: System Home [Step 1] Sending to model... <think>当前在桌面,需要启动抖音</think> <answer>do(action="Launch", app="抖音")</answer> [Step 1] Executing: Launch app '抖音'

看到Executing开头的日志,说明AI已开始操控手机。
❌ 如果卡在Sending to model...超过30秒,检查:

  • --base-url地址能否在浏览器打开(如http://192.168.1.100:8800/v1);
  • 服务器防火墙是否放行了8800端口;
  • 模型服务是否真的在运行(curl http://192.168.1.100:8800/health应返回{"status":"ok"})。

4. 实战避坑指南:95%用户都问过的5个问题

4.1 问题:中文输入全是乱码或不显示?

原因:ADB Keyboard没启用,或没切换成功。
解法

  1. 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已启用;
  2. 在任意输入框长按 → “选择输入法” → 手动选一次“ADB Keyboard”;
  3. 重启ADB服务:adb kill-server && adb start-server
  4. 再试adb shell input text "你好",应正常显示。

4.2 问题:WiFi连接后,adb devices显示unauthorized

原因:手机USB调试授权是按设备ID绑定的,WiFi连接用了新ID。
解法

  • 手机设置 → 开发者选项 → “撤销USB调试授权”;
  • 重新执行adb connect 192.168.x.x:5555
  • 手机弹窗点“允许”。

4.3 问题:执行到支付页面,屏幕变黑,然后卡住?

原因:安卓系统禁止敏感页面截图,AI收到黑屏后触发人工接管机制。
解法

  • 看到日志出现Takeover required: Please complete payment manually
  • 手动完成支付/验证码;
  • 按回车键继续(默认接管回调是阻塞式等待)。

4.4 问题:点击位置明显偏移,点不到目标按钮?

原因:坐标归一化依赖准确的屏幕分辨率,而某些定制ROM会报告错误尺寸。
解法

  • 运行adb shell wm size,查看输出(如Physical size: 1080x2400);
  • 对比手机实际分辨率(设置 → 显示 → 屏幕分辨率),若不一致:
    • 临时修复:adb shell wm size 1080x2400(替换成真实值);
    • 永久修复:换用原生安卓或Pixel手机。

4.5 问题:模型返回404 Not FoundConnection refused

原因--base-url地址格式错误。
正确写法

  • http://192.168.1.100:8800/v1(末尾必须有/v1
  • http://localhost:8000/v1(本地部署)
  • http://192.168.1.100:8800(缺/v1
  • https://xxx.ngrok.io(Open-AutoGLM目前不支持HTTPS前端,需反向代理转HTTP)

5. 进阶技巧:让AI更听话的3个实用方法

5.1 指令越具体,成功率越高

❌ 差:“帮我订外卖”
好:“打开美团,搜‘海底捞’,选‘国贸店’,点‘双人套餐’,加一份酸梅汤,下单支付”

理由:AI没有常识,它只按字面执行。给它明确App名、关键词、操作动词(点/选/加/下单),成功率翻倍。

5.2 加入“容错指令”,避免死循环

在指令末尾加一句:

“如果3次点击都没反应,就按返回键,再试一次”

AI会把它当作规则写进思考链,自动加入重试逻辑,而不是卡在原地。

5.3 用Python API实现批量任务

不用每次敲命令,写个脚本自动跑:

from phone_agent.agent import PhoneAgent from phone_agent.model.client import ModelConfig from phone_agent.config import AgentConfig model_config = ModelConfig( base_url="http://192.168.1.100:8800/v1", model_name="autoglm-phone-9b" ) agent_config = AgentConfig( max_steps=50, device_id="1234567890abcdef" ) agent = PhoneAgent(model_config, agent_config) tasks = [ "打开小红书,搜‘深圳租房’,保存前5个笔记封面", "进微信,群‘技术讨论’,发消息‘今日分享:Open-AutoGLM教程’", "打开淘宝,搜‘机械键盘’,按价格从低到高,记录第1个商品标题和价格" ] for i, task in enumerate(tasks, 1): print(f"\n--- 任务 {i} 开始 ---") result = agent.run(task) print(f"结果:{result}")

保存为batch_run.py,运行python batch_run.py即可。

6. 总结:你已掌握的核心能力

回顾一下,你现在能独立完成:

  • 在Windows/macOS上正确安装并验证ADB
  • 让任意安卓手机通过USB/WiFi稳定接入电脑
  • 成功部署Open-AutoGLM控制端并连接云端模型
  • 用自然语言指令驱动手机完成多步操作
  • 排查并解决中文输入、黑屏接管、坐标偏移等高频问题
  • 编写Python脚本实现批量自动化任务

这不是一个玩具项目,而是真正可用的生产力工具。它背后是视觉理解、动作规划、设备控制、安全约束四大能力的融合。你不需要懂原理,但你已经拿到了钥匙。

下一步,你可以:
🔹 尝试更复杂的指令,比如跨App协作(微信发链接→浏览器打开→截图→保存);
🔹 把它集成进你的工作流,比如每天自动抓取竞品App的首页文案;
🔹 甚至基于它的模块,开发自己的垂直场景Agent(电商导购、教育陪练、金融助手)。

技术不难,难的是迈出第一步。恭喜你,这一步,你已经稳稳踏出去了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/5 23:36:15

5个步骤掌握3D打印软件本地连接功能

5个步骤掌握3D打印软件本地连接功能 【免费下载链接】Cura 3D printer / slicing GUI built on top of the Uranium framework 项目地址: https://gitcode.com/gh_mirrors/cu/Cura 3D打印本地连接功能是实现计算机与3D打印机直接通信的关键技术&#xff0c;通过USB接口建…

作者头像 李华
网站建设 2026/2/4 3:14:25

流媒体画质增强工具:三步打造影院级观影体验

流媒体画质增强工具&#xff1a;三步打造影院级观影体验 【免费下载链接】netflix-4K-DDplus MicrosoftEdge(Chromium core) extension to play Netflix in 4K&#xff08;Restricted&#xff09;and DDplus audio 项目地址: https://gitcode.com/gh_mirrors/ne/netflix-4K-D…

作者头像 李华
网站建设 2026/2/7 16:34:38

Speech Seaco Paraformer运行截图解析:WebUI四大功能模块详解

Speech Seaco Paraformer运行截图解析&#xff1a;WebUI四大功能模块详解 1. 模型背景与系统概览 Speech Seaco Paraformer 是基于阿里 FunASR 框架构建的高性能中文语音识别模型&#xff0c;由科哥完成 WebUI 封装与工程化部署。该模型在中文语音识别任务中表现出色&#xf…

作者头像 李华
网站建设 2026/2/8 10:32:34

Qwen CPU推理优化:秒级响应部署实战教程

Qwen CPU推理优化&#xff1a;秒级响应部署实战教程 1. 为什么要在CPU上跑Qwen&#xff1f;一个被低估的轻量智能方案 你有没有遇到过这样的场景&#xff1a;想在一台没有GPU的老笔记本、树莓派或者公司内网的测试服务器上快速验证一个AI功能&#xff0c;结果发现——模型太大…

作者头像 李华
网站建设 2026/2/4 15:29:03

IQuest-Coder-V1镜像安全测评:私有化部署风险规避指南

IQuest-Coder-V1镜像安全测评&#xff1a;私有化部署风险规避指南 1. 为什么你需要关注这个模型的安全部署 你是不是也遇到过这样的情况&#xff1a;团队刚选中一款性能亮眼的代码大模型&#xff0c;兴冲冲拉下镜像、跑通demo、准备接入内部开发平台&#xff0c;结果在安全审…

作者头像 李华
网站建设 2026/2/8 6:53:55

实测麦橘超然生成速度,20步出图只要1分钟

实测麦橘超然生成速度&#xff0c;20步出图只要1分钟 1. 引言&#xff1a;为什么“20步1分钟”值得专门测试&#xff1f; 你有没有过这样的体验&#xff1a; 点下“生成”按钮&#xff0c;盯着进度条数秒、数十秒&#xff0c;甚至一分多钟&#xff0c;心里默念“快一点、再快…

作者头像 李华