news 2026/5/2 17:47:38

零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

1. 引言:你的手机也能拥有“贾维斯”?

你有没有想过,只要说一句“帮我订个火锅”,手机就能自动打开美团、搜索附近高分川菜馆、选好店铺并下单?听起来像科幻电影里的桥段,但现在,这一切已经可以通过Open-AutoGLM实现。

这是一款由智谱AI开源的手机端AI智能体框架,它能让AI真正“看懂”你的屏幕、“听懂”你的指令,并通过自动化操作帮你完成一系列复杂任务。无论是刷抖音、点外卖、发微信,还是逛淘宝、查行程,只需一句话,剩下的交给AI来执行。

最棒的是——哪怕你是零基础的小白,也能跟着这篇教程一步步部署成功。我们不讲晦涩术语,只用大白话+实操步骤,带你从环境配置到实际运行,完整走通整个流程。

你能学到什么?

  • 如何在本地电脑连接安卓手机并开启调试
  • 怎么安装和启动AutoGLM的核心模型服务
  • 使用自然语言控制手机的真实案例演示
  • 常见问题排查与安全使用建议

准备好了吗?让我们开始打造属于你的“AI手机管家”。


2. 准备工作:软硬件清单一应俱全

要让AI接管手机,我们需要三样东西:一台电脑、一部安卓手机,以及一些必要的软件工具。别担心,这些都不需要额外花钱。

2.1 硬件要求一览

设备要求说明
电脑Windows 或 macOS 系统,建议内存16GB以上(8GB也可尝试)
手机Android 7.0 及以上系统的真实设备或模拟器
数据线支持数据传输的USB线(用于初始连接)
存储空间至少预留50GB硬盘空间(模型文件较大)

提示:如果你是Mac用户,或者电脑性能一般,可以考虑先用简单任务测试,后续再升级配置。

2.2 必备软件环境

我们要装三个关键组件:Python、ADB工具、ADB Keyboard输入法。

Python 安装(3分钟搞定)

这是运行项目的基础编程环境。

  • Windows用户

    1. 访问 python.org 下载 Python 3.10 或更高版本
    2. 安装时务必勾选Add Python to PATH
    3. 打开命令提示符输入python --version,看到版本号即成功
  • Mac用户

    brew install python@3.10

    安装后同样用python3 --version验证

ADB 工具安装(连接手机的桥梁)

ADB(Android Debug Bridge)是用来让电脑控制手机的核心工具。

  1. 前往 Android开发者官网 下载 platform-tools

  2. 解压到一个固定目录,比如C:\adb~/Downloads/platform-tools

  3. 添加路径到系统环境变量:

    • Windows:右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在Path中添加解压路径
    • Mac:终端执行:
      export PATH=$PATH:~/Downloads/platform-tools
      并写入.zshrc文件以永久生效
  4. 验证是否安装成功:

    adb version

    如果显示版本信息,说明OK!

ADB Keyboard(让AI能打字的关键)

默认情况下,AI无法在手机上输入中文。我们需要一个特殊的输入法——ADB Keyboard。

  1. 下载 ADBKeyboard.apk(GitHub开源项目)
  2. 用USB连接手机后,在命令行运行:
    adb install ADBKeyboard.apk
  3. 手机设置中进入「语言与输入法」→「当前输入法」→ 切换为 ADB Keyboard

✅ 成功标志:当你用adb shell input text "hello"命令时,能在任意输入框打出文字。


3. 手机设置:开启“被控制”的权限

为了让电脑能远程操控手机,必须开启开发者模式和USB调试。

操作步骤如下:

  1. 打开手机「设置」
  2. 进入「关于手机」
  3. 连续点击「版本号」7次,直到弹出提示:“您已进入开发者模式”
  4. 返回设置主界面,找到「开发者选项」
  5. 开启「USB调试」开关
  6. (可选)开启「无线调试」以便后续WiFi连接

此时用USB线将手机连上电脑,手机会弹出“允许USB调试吗?”的对话框,一定要点击“允许”

然后在电脑命令行输入:

adb devices

如果看到类似这样的输出:

List of devices attached ABCDEF123 device

恭喜!你的手机已经被电脑识别,连接成功了。


4. 部署核心AI模型:让手机“看得懂、想得清”

Open-AutoGLM 的大脑是一个名为AutoGLM-Phone-9B的多模态视觉语言模型。它不仅能“读图”,还能理解界面元素、做出决策。

这个模型大约18GB,我们需要先把它下载下来。

4.1 下载模型文件

推荐根据网络情况选择源:

  • 国内用户(速度快)

    git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
  • 国际用户(官方源)

    git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

⚠️ 注意:首次使用 Hugging Face 需安装 Git LFS(Large File Storage),否则模型文件会损坏。

4.2 安装推理引擎 vLLM

vLLM 是目前最快的开源大模型推理框架之一,支持多模态输入。

安装命令:

pip install vllm

验证CUDA是否正常(NVIDIA显卡用户):

nvidia-smi

如果有显卡信息输出,说明GPU环境就绪。

4.3 启动模型服务

创建一个脚本文件start_model.sh(Mac/Linux)或start_model.bat(Windows),内容如下:

Linux/Mac 版本

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

Windows 版本

python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --port 8000 --model .\AutoGLM-Phone-9B

保存后运行:

sh start_model.sh

当看到日志中出现:

Uvicorn running on http://0.0.0.0:8000

说明模型服务已经启动成功,正在本地监听8000端口,等待调用。


5. 安装 Open-AutoGLM 控制端

现在轮到安装控制手机的“指挥官”程序。

步骤一:克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

步骤二:安装依赖包

pip install -r requirements.txt pip install -e .

这一步会安装所有必需的Python库,包括ADB通信模块、模型接口封装等。


6. 第一次运行:让AI打开“设置”应用

万事俱备,我们来做一个最简单的测试:让AI自动打开手机的“设置”应用。

在项目根目录下运行以下命令:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

稍等几秒,你会看到类似这样的输出:

💭 思考过程: 当前在桌面,需要打开设置应用 🎯 执行动作: {"action": "Launch", "app": "设置"}

紧接着,你手中的手机应该自动跳转到了「设置」页面!

✅ 成功标志:AI准确识别了当前界面,并下达了正确的启动指令。


7. 实战演练:几个超实用的生活场景

现在我们来试试更复杂的任务,感受一下AI代理的真正实力。

示例1:打开小红书搜美食

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索北京好吃的火锅店"

AI会依次执行:

  1. 找到小红书图标并点击打开
  2. 点击搜索框
  3. 输入“北京好吃的火锅店”
  4. 触发搜索并展示结果

示例2:关注指定抖音号

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

整个过程无需手动输入账号名,AI会自动完成搜索、进入主页、点击关注按钮。

示例3:批量查看支持的应用

想知道它能操作哪些APP?直接列出:

python main.py --list-apps

你会看到一个支持列表,涵盖微信、淘宝、美团、滴滴、微博、B站等主流应用。


8. 高级玩法:WiFi远程控制 & 自定义行为

8.1 用WiFi无线控制手机(摆脱数据线)

一旦初次USB连接成功,就可以切换为无线模式,更加自由灵活。

步骤如下

  1. 先用USB连接手机
  2. 执行:
    adb tcpip 5555
  3. 断开USB线
  4. 查看手机IP地址(通常在「设置-关于手机-状态信息」里)
  5. 连接WiFi设备:
    adb connect 192.168.x.x:5555
  6. 再次运行adb devices,确认设备在线

之后所有命令都可通过WiFi发送,适合长期挂机使用。

8.2 给AI加个“购物专家”人设

你可以修改提示词,让它在特定场景表现更好。

编辑文件phone_agent/config/prompts.py中的SYSTEM_PROMPT,例如增强电商能力:

SYSTEM_PROMPT = """ 你是一个专业的手机购物助手,擅长在淘宝、京东、拼多多等平台帮用户选购商品。 请优先考虑销量高、评价好、有优惠券的商品,并按价格从低到高排序。 """

保存后重启服务,下次购物类任务就会更聪明啦!


9. 安全机制:敏感操作需人工确认

为了避免误操作造成损失,Open-AutoGLM 内置了敏感操作拦截机制

当AI检测到以下行为时,会暂停执行并等待你确认:

  • 支付付款
  • 删除文件
  • 发送敏感消息
  • 修改系统设置

你还可以自定义确认逻辑,比如加入语音提醒或弹窗通知。

示例代码:

def my_confirmation(msg): print(f"\n⚠️ 危险操作预警: {msg}") return input("继续执行?(y/n): ").lower() == 'y' agent = PhoneAgent(confirmation_callback=my_confirmation) agent.run("帮我支付这笔订单")

这样即使AI判断要付款,也会停下来等你拍板。


10. 常见问题与解决方案

Q1:adb devices显示 unauthorized

原因:手机未授权电脑调试
解决:断开重连,手机弹窗中点击“允许”

Q2:模型启动失败,报显存不足

解决方法

  • 尝试添加--device cpu参数以CPU模式运行(速度慢但兼容性好)
  • 关闭其他占用显存的程序
  • 使用 smaller 模型(如有提供)

Q3:AI识别不了屏幕内容

检查项

  • 手机屏幕是否熄灭或锁屏?
  • 是否正确启用了 ADB Keyboard?
  • 模型服务是否正常运行?

Q4:中文输入失败

解决

  • 确保 ADB Keyboard 已设为默认输入法
  • 重启手机后再试
  • 在输入场景手动切换一次输入法

11. 总结:每个人都能拥有的AI助理

通过这篇保姆级教程,你应该已经成功让 Open-AutoGLM 在你的设备上跑起来了。回顾一下我们完成了哪些事:

  • ✅ 配置了Python和ADB环境
  • ✅ 开启了手机开发者权限
  • ✅ 下载并启动了AutoGLM-Phone-9B模型
  • ✅ 安装了Open-AutoGLM控制端
  • ✅ 成功执行了多个自然语言指令
  • ✅ 掌握了WiFi远程控制和安全防护技巧

这不仅仅是一个技术玩具,更是未来生活方式的一种预演。你可以用它:

  • 自动打卡签到
  • 批量点赞朋友圈
  • 监控特价商品
  • 辅助老人操作手机

更重要的是,它是完全开源、本地部署、隐私可控的AI方案,不像云端服务那样把数据交给别人。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 6:12:38

G-Helper:华硕游戏本性能调校神器 - 轻量级控制工具完全指南

G-Helper:华硕游戏本性能调校神器 - 轻量级控制工具完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项…

作者头像 李华
网站建设 2026/5/2 13:21:56

如何贡献GPEN社区?魔搭ModelScope上传流程指南

如何贡献GPEN社区?魔搭ModelScope上传流程指南 GPEN人像修复增强模型镜像 本镜像基于 GPEN人像修复增强模型 构建,预装了完整的深度学习开发环境,集成了推理及评估所需的所有依赖,开箱即用。 1. 镜像环境说明 组件版本核心框架…

作者头像 李华
网站建设 2026/5/1 7:15:41

猫抓浏览器扩展:轻松捕获网页视频资源的实用指南

猫抓浏览器扩展:轻松捕获网页视频资源的实用指南 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到这样的困扰:看到精彩的在线视频却无法下载保存?想要…

作者头像 李华
网站建设 2026/4/25 22:11:46

万物识别-中文-通用领域模型压缩:ONNX转换与量化实战

万物识别-中文-通用领域模型压缩:ONNX转换与量化实战 你有没有遇到过这样的问题:训练好的图像识别模型太大,部署起来卡顿、加载慢,甚至在边缘设备上根本跑不动?今天我们要解决的就是这个痛点——把阿里开源的“万物识…

作者头像 李华
网站建设 2026/4/24 10:54:01

拯救者系列BIOS隐藏功能完全解锁指南:释放硬件全部潜能

拯救者系列BIOS隐藏功能完全解锁指南:释放硬件全部潜能 【免费下载链接】LEGION_Y7000Series_Insyde_Advanced_Settings_Tools 支持一键修改 Insyde BIOS 隐藏选项的小工具,例如关闭CFG LOCK、修改DVMT等等 项目地址: https://gitcode.com/gh_mirrors/…

作者头像 李华
网站建设 2026/4/28 21:45:49

联想拯救者BIOS解锁终极指南:3步开启隐藏高级功能

联想拯救者BIOS解锁终极指南:3步开启隐藏高级功能 【免费下载链接】LEGION_Y7000Series_Insyde_Advanced_Settings_Tools 支持一键修改 Insyde BIOS 隐藏选项的小工具,例如关闭CFG LOCK、修改DVMT等等 项目地址: https://gitcode.com/gh_mirrors/le/LE…

作者头像 李华