Open-AutoGLM保姆级教学:连ADB都不会也能学会
你有没有想过,手机能自己“看懂”屏幕、听懂你说话,然后像真人一样点开APP、输入文字、滑动页面、完成任务?不是科幻电影,是今天就能上手的现实——Open-AutoGLM,一个真正让AI在手机上“动手做事”的智能体框架。
更关键的是:它不要求你会写代码,不强制你背命令,甚至不需要你搞懂什么是ADB、什么是vLLM、什么是端口映射。这篇教程专为“零基础但想立刻用起来”的人设计。哪怕你上次接触命令行还是在大学计算机课上按错Ctrl+C,只要愿意花45分钟,就能让AI替你刷抖音、搜小红书、比价下单、关注博主、发朋友圈……全程用大白话指挥,它来执行。
这不是概念演示,而是可复现、可落地、已开源的真实系统。下面,我们就从“完全没碰过ADB”开始,一步步带你搭起属于自己的手机AI助理。
1. 先搞明白:它到底能帮你做什么?
别急着装软件,先看清价值——这决定了你愿不愿意往下走。
Open-AutoGLM(准确说是其核心框架 AutoGLM-Phone)不是一个聊天机器人,而是一个会看、会想、会点、会输、会判断的手机操作员。它的能力链条非常清晰:
- 看:实时截取手机屏幕,用视觉语言模型理解当前界面(比如识别出“小红书首页”“搜索框”“点赞按钮”“商品价格标签”)
- 听:接收你用中文说的自然指令,比如“帮我把这张截图里的地址发到微信给张三”
- 想:自动拆解任务逻辑(先打开微信→找到张三→点击输入框→粘贴地址→发送)
- 做:通过ADB向手机发送精准操作指令(点击坐标、滑动轨迹、输入文字、返回上一页)
- 判:遇到登录页、验证码、弹窗等敏感操作时主动暂停,等你人工确认后再继续
举几个真实能跑通的例子:
- “打开美团,搜‘附近2公里内评分4.8以上的川菜馆’,选第一家,复制电话号码发我微信”
- “进淘宝,搜‘iPhone15保护壳磨砂黑’,按销量排序,把前3个商品标题和价格截图发我”
- “打开抖音,搜用户‘dycwo11nt61d’,点进主页,点关注按钮”
所有这些,你只需要在命令行里敲一句中文,回车,然后看着手机自己动起来。没有脚本、不写XPath、不录UI自动化流程——纯靠语言驱动。
1.1 它为什么能做到?三个关键模块缺一不可
| 模块 | 作用 | 小白友好解释 |
|---|---|---|
| 视觉语言模型(VLM) | 理解屏幕截图内容 | 就像给AI配了一双眼睛+一个大脑,它能认出图标、文字、按钮位置,知道“放大镜图标=搜索”,“红色购物车=下单入口” |
| 任务规划器(Planner) | 把你的指令拆成可执行步骤 | 你说“订外卖”,它自动规划:打开APP→点首页搜索→输入菜名→选店铺→加购→结算→填地址→支付 |
| ADB执行引擎 | 真正操控手机硬件 | 相当于AI的手指,能模拟点击、滑动、长按、输入文字,所有操作都通过标准安卓调试协议完成 |
注意:ADB本身只是安卓官方提供的调试工具(类似手机的“维修接口”),我们不用学它全部命令,只需让它连上、被AI调用即可。后面所有ADB操作,都会封装成一行命令或图形化提示,你照着点就行。
2. 服务器端部署:租一台“AI大脑”,5分钟搞定
Open-AutoGLM需要强大算力运行大模型,所以得把“思考部分”放在云端服务器,本地只负责“传指令”和“传画面”。好消息是:现在租服务器比买奶茶还简单。
2.1 选一台带显卡的云服务器(3分钟)
推荐平台:算力云(gpu.ai-galaxy.cn)
理由:价格透明、显卡型号全、国内访问快、新用户送券(注册即领,省下首小时费用)。
操作步骤:
- 访问 注册链接(含优惠券) → 填邮箱注册
- 登录后进入控制台 → 点“创建实例”
- 关键配置选择(直接抄作业):
- 显卡:选
A100-40G或A40(40G显存是稳定运行9B模型的黄金线) - 系统镜像:选
Ubuntu 22.04 LTS(最稳,教程全) - 带宽:拉满(下载模型动辄10GB+,慢带宽等1小时起步)
- 计费模式:选“按小时付费”(试完就关,花多少算多少)
- 显卡:选
小贴士:首次创建时,控制台会显示“外网端口”与“容器内端口”的映射关系(例如:外网8800 → 容器内8000)。这个数字后面要用,截图保存。
2.2 一键安装Docker和vLLM(2分钟)
连接服务器(用系统自带的SSH或Termius等工具),粘贴以下三段命令,每段回车执行,无需理解:
# 第一步:安装Docker(容器运行环境) sudo apt update && sudo apt install -y docker.io sudo systemctl start docker && sudo systemctl enable docker # 第二步:配置国内镜像加速(让下载飞起来) sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-'EOF' { "registry-mirrors": ["https://docker.m.daocloud.io"] } EOF sudo systemctl restart docker # 第三步:拉取并启动vLLM服务(AI大脑上线) sudo docker run -d \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /root/model:/app/model \ --name autoglm-vllm \ vllm/vllm-openai:v0.12.0执行完第三条命令后,输入sudo docker ps,看到autoglm-vllm在运行状态,说明AI大脑已启动。
2.3 下载模型文件(自动完成,不用操心)
vLLM容器启动后,会自动从魔搭社区(ModelScope)下载ZhipuAI/AutoGLM-Phone-9B模型。你只需等待3–8分钟(取决于带宽),期间可以去倒杯水。
注意:如果等10分钟还没好,可能是网络问题。此时手动执行:
sudo docker exec -it autoglm-vllm bash -c "pip install modelscope && modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/app/model'"
3. 本地电脑准备:连手机就像连WiFi一样简单
现在,“大脑”在云端跑起来了,接下来让“手”和“眼”(你的手机)连上去。这里彻底告别复杂ADB配置——我们只做三件事:装一个工具、开一个开关、点一下确认。
3.1 下载并安装ADB工具包(1分钟)
- Windows用户:去 Android Platform Tools官网 下载zip包 → 解压到
D:\adb(路径越短越好) - macOS用户:打开终端,输入
brew install android-platform-tools - 验证是否成功:终端输入
adb version,看到版本号(如Android Debug Bridge version 1.0.41)即成功
关键突破:我们不配置环境变量!后面所有ADB命令,都直接用完整路径调用,避免90%的新手卡点。
3.2 手机设置:三步开启“被AI操控”权限
拿出你的安卓手机(Android 7.0以上,华为/小米/OPPO/vivo均支持),按顺序操作:
开开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”开USB调试:
设置 → 系统 → 开发者选项 → 找到“USB调试” → 右侧滑动开启 → 弹窗点“确定”装ADB键盘(解决输入问题):
- 用手机浏览器访问 ADB Keyboard APK下载页
- 下载安装(允许“未知来源应用”)
- 设置 → 语言与输入法 → 虚拟键盘 → 选择“ADB Keyboard”为默认输入法
完成后,手机顶部状态栏会出现“开发者选项已启用”和“USB调试已启用”提示。
3.3 连接手机:USB线一插,自动识别
用原装USB线将手机连电脑 → 手机弹窗点“允许USB调试” → 电脑终端执行:
# Windows用户(假设ADB在D:\adb): D:\adb\adb devices # macOS用户: adb devices如果看到一串字母数字(如FA6AJ0308723 device),说明连接成功!这串就是你的设备ID,后面要用。
🔁 如果显示
???????? no permissions:拔掉USB线,重启手机再重连一次,90%能解决。
4. 控制端部署:三行命令,让AI开始干活
现在,“大脑”在云上,“手眼”在手机上,只差一个“翻译官”把你的中文指令传过去。这就是Open-AutoGLM控制端。
4.1 克隆代码并安装(2分钟)
在电脑终端(Windows用CMD/PowerShell,macOS用Terminal)中执行:
# 克隆官方仓库(含所有预设配置) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(自动处理Python包) pip install -r requirements.txt pip install -e .执行完无报错,控制端就绪。
4.2 一句话启动AI代理(核心命令,记牢)
在Open-AutoGLM文件夹内,执行这一行命令(只需改3个地方,其余复制粘贴):
python main.py \ --device-id FA6AJ0308723 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜‘北京烤鸭’,点第一个笔记,保存图片到相册"替换说明(务必修改):
--device-id:换成你手机真实的ID(adb devices输出的第一列)--base-url:http://后面填你云服务器的公网IP(控制台里找),:后面填你之前记下的外网端口(如8800)- 最后引号内:写你想让AI做的事,用中文,越像日常说话越好
回车后,你会看到:
- 终端滚动日志(显示“正在截图”“正在分析界面”“生成动作:Click(320,180)”)
- 手机屏幕实时响应(自动打开小红书→出现搜索框→输入文字→点击搜索→进入笔记→长按保存)
整个过程无需你干预,就像看着一个熟练同事帮你操作。
5. 实战案例:手把手跑通第一个任务
我们用一个最典型、最容易验证的任务来收尾:让AI帮你关注抖音博主。这是检验“看-想-做”全链路是否通畅的黄金测试。
5.1 准备工作检查清单
| 项目 | 状态 | 检查方式 |
|---|---|---|
| 云服务器vLLM服务 | 运行中 | sudo docker ps | grep autoglm应有输出 |
| 手机已连电脑 | 显示device | adb devices输出含ID |
| 抖音APP已安装 | 手机桌面能找到抖音图标 | |
| 手机解锁且在桌面 | AI无法操作锁屏界面 |
5.2 执行指令(复制即用)
python main.py \ --device-id FA6AJ0308723 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音APP,搜索用户‘dycwo11nt61d’,进入他的主页,点击关注按钮"5.3 你将亲眼看到的AI工作流
- 截屏:AI自动截取当前手机桌面图
- 识别:发现“抖音”图标,定位其坐标
- 点击:模拟手指点击抖音图标 → 启动APP
- 再截屏:APP加载后,识别顶部搜索框
- 输入:调用ADB键盘,逐字输入
dycwo11nt61d - 搜索:点击搜索按钮 → 进入结果页
- 定位:识别用户头像、昵称、关注按钮
- 执行:点击“关注” → 弹出确认框 → AI停住,等你手动点“确定”(安全机制)
成功标志:手机上出现“已关注”提示,终端日志末尾显示
Task completed successfully。
6. 常见问题速查:90%的问题,三句话解决
新手最常卡在这几个点,我们按优先级排序给出“急救方案”:
6.1 手机连不上?先看这三点
现象:
adb devices显示???????? no permissions
解法:拔掉USB线 → 关机重启手机 → 重新连接 → 弹窗点“允许”现象:
adb devices无输出,或显示offline
解法:换一根原装USB线;关闭手机“USB配置”里的“仅充电”模式,改为“文件传输”现象:WiFi连接失败(
adb connect 192.168.x.x:5555返回failed to connect)
解法:放弃WiFi,直接用USB线——对新手100%可靠
6.2 AI不动?检查服务连通性
- 现象:终端卡在
Waiting for model response...超过2分钟
解法:- 在云服务器上执行
curl http://localhost:8000/v1/models,应返回JSON(证明vLLM活) - 在本地电脑执行
curl http://123.45.67.89:8800/v1/models(替换为你IP),若超时 → 检查云服务器防火墙是否放行8800端口
- 在云服务器上执行
6.3 操作错乱?调整AI“注意力”
- 现象:AI点错了位置,或输入了错误文字
解法:在指令末尾加一句约束,例如:"打开小红书,搜‘北京烤鸭’...(补充)请确保只操作小红书APP,不切换到其他应用"
模型对明确边界指令响应更准。
7. 总结:你已经拥有了一个会动手的AI同事
回顾这45分钟,你完成了什么?
租了一台带显卡的云服务器,装好了AI大脑(vLLM)
给手机开了“被操控”权限,连上了本地电脑
下载了开源框架,用一句话指令启动了全自动操作
亲眼看着AI打开APP、搜索、点击、输入、完成任务
你不需要懂ADB原理,不需要调vLLM参数,不需要写一行自动化脚本——所有技术细节都被封装成“填空题”和“选择题”。这就是Open-AutoGLM的设计哲学:把AI能力,变成人人可用的生产力工具。
下一步,你可以:
- 尝试更复杂的指令:“对比京东和淘宝上iPhone15的价格,截图发我微信”
- 把常用任务做成快捷指令,一键执行
- 接入微信机器人,语音说“帮我订外卖”,AI自动操作
技术永远不该是门槛,而是杠杆。你现在握住的,就是那根撬动效率的杠杆。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。