小白也能懂的AutoGLM教程：一键实现AI自动点外卖-平芜编程栈

小白也能懂的AutoGLM教程：一键实现AI自动点外卖

1. 这不是语音助手，是能“看”会“点”的手机AI管家

你有没有过这样的时刻：
手指划到酸软，还在美团里翻第37页“附近好评火锅”；
输入法卡顿，打完“瑞幸拿铁不加冰少糖”发现下单按钮早被误点跳转；
深夜饿得清醒，却连打开外卖App的力气都没有——更别说在几十个弹窗和广告中精准点击“立即支付”。

别急着叹气。这次我们不用写代码、不配显卡、不折腾Docker，只用一台普通电脑+一部安卓手机，就能让AI替你完成整套操作：看屏幕、识按钮、点图标、输文字、选规格、点下单——全程自然语言一句话搞定。

这就是智谱开源的Open-AutoGLM，一个真正意义上的“手机端AI Agent”。它不是调API回个文字，而是像真人一样：
用眼睛（截图）理解你手机当前界面长什么样；
用脑子（视觉语言模型）判断“搜索框在哪”“‘去结算’按钮坐标是多少”；
用手（ADB指令）真实点击、滑动、输入，不模拟、不截图、不猜测——真·执行。

标题里说“自动点外卖”，只是它最接地气的一个切口。它还能：

“打开小红书搜‘上海平价日料’，保存前三篇笔记”
“进微信，给‘妈妈’发语音‘我今晚加班，不回家吃饭’”
“打开高德地图，查从公司到虹桥站的地铁末班车时间”

只要是你能在手机上手动完成的事，它就有可能替你做。而今天这篇教程，就是专为零基础小白写的落地指南——不讲原理、不堆参数、不画架构图，只告诉你：
🔹 该装什么、连什么、点哪里；
🔹 哪一步最容易卡住、怎么一眼看出问题；
🔹 一句命令就能让AI开始干活，连“外卖”两个字都不用提。

准备好了吗？我们直接开干。

2. 三步搭好环境：手机、电脑、AI大脑全连通

2.1 手机端：打开“天眼”和“遥控接收器”

这一步决定AI能不能“看见”你的屏幕、“摸到”你的手机。别跳过，90%的问题出在这里。

第一步：开启开发者模式
进入手机「设置」→「关于手机」→连续快速点击「版本号」7次（部分机型需10次），直到弹出提示：“您已处于开发者模式”。

第二步：打开USB调试
返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」。
注意：部分品牌（如华为、小米）还需额外开启「USB安装」和「USB调试（安全设置）」，勾选全部。

第三步：装好ADB Keyboard（关键！）
这是让AI能“打字”的核心组件。

下载地址：https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
用USB线连接手机与电脑，在命令行输入：

adb install -r ADBKeyboard.apk

安装成功后，进入手机「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」并设为默认。

验证是否成功：断开USB线，用WiFi连上同一网络，再运行adb devices，若显示设备ID且状态为device，说明手机已准备好接收指令。

2.2 电脑端：装好“遥控发射器”和“通信协议”

你不需要GPU，甚至不需要Linux——Windows或Mac都能跑。

安装ADB工具（5分钟搞定）

Windows用户：下载Android SDK Platform-Tools，解压到C:\platform-tools；
在「系统属性」→「环境变量」→「系统变量」→「Path」中添加该路径；
打开新命令行，输入adb version，看到版本号即成功。
Mac用户：终端执行

curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH=$PATH:$(pwd)/platform-tools

（建议将export行加入~/.zshrc永久生效）

创建干净的Python环境（强烈推荐）

# 使用conda（更稳） conda create -n autoglm python=3.10 conda activate autoglm # 或用venv python -m venv autoglm_env source autoglm_env/bin/activate # Mac/Linux # autoglm_env\Scripts\activate # Windows

2.3 AI大脑：用智谱API，免部署、零显卡

Open-AutoGLM支持两种模式：本地部署大模型（需显卡）或调用云端API（本文推荐）。
我们选后者——注册即用、免费额度充足、无需配置vLLM、不占你电脑1MB显存。

访问智谱AI官网，注册账号；
进入「API Key管理」，点击「创建API Key」，复制保存（形如sk-xxx）；
关键提醒：这个Key要全程用英文双引号包裹，比如"sk-abc123"，漏掉引号必报错。

现在，你的手机是“手和眼”，电脑是“遥控器”，智谱API是“大脑”——三者已就位。

3. 一行命令启动：让AI开始点外卖

3.1 最简启动：一句话，真执行

确保手机已通过USB或WiFi连接电脑（adb devices能看到设备），然后在终端进入项目目录，执行：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥" \ "打开美团，搜索‘杭州西湖边的龙井虾仁’，点进第一家店，选‘堂食’，加一份龙井虾仁，下单"

注意事项：

--base-url固定为https://open.bigmodel.cn/api/paas/v4（智谱官方API地址）；
--model必须写"autoglm-phone"（注意是phone，不是phone-9b或其他）；
指令必须是完整、具体、带动作链的中文自然句，避免模糊词如“那个”“上面”“右边”；
如果用Windows且报UnicodeDecodeError（GBK读UTF-8文件错误），请打开scripts/check_deployment_cn.py，在with open(...)行末尾加上encoding='utf-8'。

执行后，你会看到AI开始工作：

自动截取手机当前屏幕；
将截图+文字指令一起发给智谱模型；
模型返回结构化操作步骤（如“点击坐标(520, 180)”“输入文字‘龙井虾仁’”）；
ADB自动执行，手机屏幕实时响应。

整个过程无需你干预，就像看着另一个人在帮你操作。

3.2 进阶用法：交互模式，像聊天一样下指令

不想每次改命令？用交互模式：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥"

运行后会出现提示：

Enter your task:

这时你就可以像跟朋友说话一样输入：
→ “打开抖音，搜‘健身餐食谱’，关注前三个博主”
→ “进微信，把昨天那张猫图发给‘同事小王’”
→ “打开高德，导航到最近的瑞幸咖啡，避开拥堵”

每输一条，AI立刻执行，结果实时反馈在终端。适合反复测试、快速验证想法。

3.3 真实效果：它真的点成了吗？

我们实测了“点外卖”全流程（手机：vivo S20，电脑：MacBook Pro M1）：

指令：“打开饿了么，搜‘上海静安寺附近生煎’，选‘大壶春’，点单‘鲜肉生煎+豆浆’，备注‘不要葱’，下单”
实际耗时：约82秒（含截图分析、模型推理、ADB执行延迟）；
成功节点：
✓ 自动识别饿了么首页搜索框并点击；
✓ 准确输入“上海静安寺附近生煎”并触发搜索；
✓ 在结果页精准定位“大壶春”店铺卡片并点击进入；
✓ 识别菜品列表，“鲜肉生煎”和“豆浆”按钮坐标无误；
✓ 在备注栏输入“不要葱”，未误触其他选项；
✓ 最终跳转至支付页，显示“待支付”状态。

当前限制（坦诚告知）：

遇到图形验证码、短信验证、人脸识别等强安全环节，AI会主动暂停并提示“需人工接管”；
部分App深度定制UI（如某些银行App），控件识别率略低，建议优先用于美团、抖音、微信、高德等主流应用；
WiFi连接稳定性影响执行流畅度，首次建议用USB线直连。

但请记住：这不是一个“完美无缺”的工具，而是一个已能稳定完成真实任务的AI Agent原型——它的价值不在100%成功率，而在把“重复性手机操作”这件事，第一次交给了AI。

4. 为什么它能看懂屏幕、还能点准？一句话讲清原理

很多教程一上来就讲VLM、RLHF、Action Space，反而让人更懵。我们换种说法：

想象你教一个刚来中国的朋友点外卖：

你先给他手机，让他自己看屏幕（截图 → 视觉输入）；
你告诉他：“现在你要找一个放大镜图标，它通常在右上角，点一下”（文字指令 → 语言输入）；
他眯着眼找，终于看到——但不确定是不是，于是拍张照发给你（多模态对齐：图文联合理解）；
你一看：“对，就是它，坐标大概x=920, y=120”（模型输出：像素级操作坐标）；
他伸手过去，稳稳点中（ADB执行：真实点击）。

Open-AutoGLM做的，就是把“你”换成了智谱的视觉语言模型，把“他”换成了你的手机。
它不靠预设规则（比如“所有App的搜索框都在右上角”），而是每次根据当前截图，动态推理出最可能的操作——这才是真正的“智能”，而不是“脚本”。

所以它不怕App更新：界面变了？没关系，AI重新看图分析；
所以它能跨App：从微信跳到美团？没问题，模型理解的是“任务流”，不是单个App。

你不需要懂Transformer，只需要知道：它看的是真截图，点的是真屏幕，干的是真事情。

5. 常见问题速查：卡住时，先看这5条

问题现象	最可能原因	一句话解决
`adb devices`不显示设备	USB调试未开 / 数据线仅充电	换线、重启手机、重开USB调试、检查电脑驱动
运行报错`Connection refused`	智谱API Key错误 / URL拼错	检查Key是否复制完整、URL末尾是否有斜杠、是否用了中文引号
AI一直“思考中”，无响应	网络慢 / API限流 / 指令太模糊	换WiFi、检查智谱控制台剩余token、把“那个店”改成“评分4.8分的‘南翔馒头店’”
点错了位置，或输错字	截图模糊 / 屏幕亮度低 / 字体太小	调高手机亮度、清理屏幕指纹、确保截图清晰（可手动截一张看）
执行到一半停住，提示“需人工确认”	遇到登录页、支付密码、验证码	这是安全设计！此时你只需手动输密码，AI会继续后续流程

终极技巧：如果某条指令总失败，把它拆成两句。比如：
❌ “打开小红书，搜‘北京胡同咖啡’，收藏前五篇”
先输：“打开小红书，搜索‘北京胡同咖啡’”
等它完成搜索页后，再输：“点击第一篇笔记，点收藏按钮”

分步执行，成功率飙升。

6. 总结：你已经拥有了一个会动手的AI伙伴

回顾这一路：
我们没编一行业务逻辑，没调一个模型参数，没配一个GPU驱动；
只做了三件事：
✔ 在手机上打开“眼睛”（USB调试）和“手”（ADB Keyboard）；
✔ 在电脑上装好“遥控器”（ADB）和“通信协议”（Python环境）；
✔ 向智谱借来“大脑”（API Key），用一句话下达任务。

结果呢？
AI替你完成了从打开App、搜索、浏览、选择、填写、到下单的全链路操作。它不完美，但足够真实；它有延迟，但省下了你划屏的3分钟；它会卡在验证码，但之后的10步它全包了。

这不是科幻，是今天就能跑起来的技术。
它背后的意义，远不止“点外卖”：