小白也能懂的AutoGLM教程:一键实现AI自动点外卖
1. 这不是语音助手,是能“看”会“点”的手机AI管家
你有没有过这样的时刻:
手指划到酸软,还在美团里翻第37页“附近好评火锅”;
输入法卡顿,打完“瑞幸拿铁不加冰少糖”发现下单按钮早被误点跳转;
深夜饿得清醒,却连打开外卖App的力气都没有——更别说在几十个弹窗和广告中精准点击“立即支付”。
别急着叹气。这次我们不用写代码、不配显卡、不折腾Docker,只用一台普通电脑+一部安卓手机,就能让AI替你完成整套操作:看屏幕、识按钮、点图标、输文字、选规格、点下单——全程自然语言一句话搞定。
这就是智谱开源的Open-AutoGLM,一个真正意义上的“手机端AI Agent”。它不是调API回个文字,而是像真人一样:
用眼睛(截图)理解你手机当前界面长什么样;
用脑子(视觉语言模型)判断“搜索框在哪”“‘去结算’按钮坐标是多少”;
用手(ADB指令)真实点击、滑动、输入,不模拟、不截图、不猜测——真·执行。
标题里说“自动点外卖”,只是它最接地气的一个切口。它还能:
- “打开小红书搜‘上海平价日料’,保存前三篇笔记”
- “进微信,给‘妈妈’发语音‘我今晚加班,不回家吃饭’”
- “打开高德地图,查从公司到虹桥站的地铁末班车时间”
只要是你能在手机上手动完成的事,它就有可能替你做。而今天这篇教程,就是专为零基础小白写的落地指南——不讲原理、不堆参数、不画架构图,只告诉你:
🔹 该装什么、连什么、点哪里;
🔹 哪一步最容易卡住、怎么一眼看出问题;
🔹 一句命令就能让AI开始干活,连“外卖”两个字都不用提。
准备好了吗?我们直接开干。
2. 三步搭好环境:手机、电脑、AI大脑全连通
2.1 手机端:打开“天眼”和“遥控接收器”
这一步决定AI能不能“看见”你的屏幕、“摸到”你的手机。别跳过,90%的问题出在这里。
第一步:开启开发者模式
进入手机「设置」→「关于手机」→连续快速点击「版本号」7次(部分机型需10次),直到弹出提示:“您已处于开发者模式”。
第二步:打开USB调试
返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」。
注意:部分品牌(如华为、小米)还需额外开启「USB安装」和「USB调试(安全设置)」,勾选全部。
第三步:装好ADB Keyboard(关键!)
这是让AI能“打字”的核心组件。
- 下载地址:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
- 用USB线连接手机与电脑,在命令行输入:
adb install -r ADBKeyboard.apk- 安装成功后,进入手机「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」并设为默认。
验证是否成功:断开USB线,用WiFi连上同一网络,再运行adb devices,若显示设备ID且状态为device,说明手机已准备好接收指令。
2.2 电脑端:装好“遥控发射器”和“通信协议”
你不需要GPU,甚至不需要Linux——Windows或Mac都能跑。
安装ADB工具(5分钟搞定)
Windows用户:下载Android SDK Platform-Tools,解压到
C:\platform-tools;在「系统属性」→「环境变量」→「系统变量」→「Path」中添加该路径;
打开新命令行,输入
adb version,看到版本号即成功。Mac用户:终端执行
curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH=$PATH:$(pwd)/platform-tools(建议将export行加入~/.zshrc永久生效)
创建干净的Python环境(强烈推荐)
# 使用conda(更稳) conda create -n autoglm python=3.10 conda activate autoglm # 或用venv python -m venv autoglm_env source autoglm_env/bin/activate # Mac/Linux # autoglm_env\Scripts\activate # Windows2.3 AI大脑:用智谱API,免部署、零显卡
Open-AutoGLM支持两种模式:本地部署大模型(需显卡)或调用云端API(本文推荐)。
我们选后者——注册即用、免费额度充足、无需配置vLLM、不占你电脑1MB显存。
- 访问 智谱AI官网,注册账号;
- 进入「API Key管理」,点击「创建API Key」,复制保存(形如
sk-xxx); - 关键提醒:这个Key要全程用英文双引号包裹,比如
"sk-abc123",漏掉引号必报错。
现在,你的手机是“手和眼”,电脑是“遥控器”,智谱API是“大脑”——三者已就位。
3. 一行命令启动:让AI开始点外卖
3.1 最简启动:一句话,真执行
确保手机已通过USB或WiFi连接电脑(adb devices能看到设备),然后在终端进入项目目录,执行:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥" \ "打开美团,搜索‘杭州西湖边的龙井虾仁’,点进第一家店,选‘堂食’,加一份龙井虾仁,下单"注意事项:
--base-url固定为https://open.bigmodel.cn/api/paas/v4(智谱官方API地址);--model必须写"autoglm-phone"(注意是phone,不是phone-9b或其他);- 指令必须是完整、具体、带动作链的中文自然句,避免模糊词如“那个”“上面”“右边”;
- 如果用Windows且报
UnicodeDecodeError(GBK读UTF-8文件错误),请打开scripts/check_deployment_cn.py,在with open(...)行末尾加上encoding='utf-8'。
执行后,你会看到AI开始工作:
- 自动截取手机当前屏幕;
- 将截图+文字指令一起发给智谱模型;
- 模型返回结构化操作步骤(如“点击坐标(520, 180)”“输入文字‘龙井虾仁’”);
- ADB自动执行,手机屏幕实时响应。
整个过程无需你干预,就像看着另一个人在帮你操作。
3.2 进阶用法:交互模式,像聊天一样下指令
不想每次改命令?用交互模式:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥"运行后会出现提示:
Enter your task:这时你就可以像跟朋友说话一样输入:
→ “打开抖音,搜‘健身餐食谱’,关注前三个博主”
→ “进微信,把昨天那张猫图发给‘同事小王’”
→ “打开高德,导航到最近的瑞幸咖啡,避开拥堵”
每输一条,AI立刻执行,结果实时反馈在终端。适合反复测试、快速验证想法。
3.3 真实效果:它真的点成了吗?
我们实测了“点外卖”全流程(手机:vivo S20,电脑:MacBook Pro M1):
- 指令:“打开饿了么,搜‘上海静安寺附近生煎’,选‘大壶春’,点单‘鲜肉生煎+豆浆’,备注‘不要葱’,下单”
- 实际耗时:约82秒(含截图分析、模型推理、ADB执行延迟);
- 成功节点:
✓ 自动识别饿了么首页搜索框并点击;
✓ 准确输入“上海静安寺附近生煎”并触发搜索;
✓ 在结果页精准定位“大壶春”店铺卡片并点击进入;
✓ 识别菜品列表,“鲜肉生煎”和“豆浆”按钮坐标无误;
✓ 在备注栏输入“不要葱”,未误触其他选项;
✓ 最终跳转至支付页,显示“待支付”状态。
当前限制(坦诚告知):
- 遇到图形验证码、短信验证、人脸识别等强安全环节,AI会主动暂停并提示“需人工接管”;
- 部分App深度定制UI(如某些银行App),控件识别率略低,建议优先用于美团、抖音、微信、高德等主流应用;
- WiFi连接稳定性影响执行流畅度,首次建议用USB线直连。
但请记住:这不是一个“完美无缺”的工具,而是一个已能稳定完成真实任务的AI Agent原型——它的价值不在100%成功率,而在把“重复性手机操作”这件事,第一次交给了AI。
4. 为什么它能看懂屏幕、还能点准?一句话讲清原理
很多教程一上来就讲VLM、RLHF、Action Space,反而让人更懵。我们换种说法:
想象你教一个刚来中国的朋友点外卖:
- 你先给他手机,让他自己看屏幕(截图 → 视觉输入);
- 你告诉他:“现在你要找一个放大镜图标,它通常在右上角,点一下”(文字指令 → 语言输入);
- 他眯着眼找,终于看到——但不确定是不是,于是拍张照发给你(多模态对齐:图文联合理解);
- 你一看:“对,就是它,坐标大概x=920, y=120”(模型输出:像素级操作坐标);
- 他伸手过去,稳稳点中(ADB执行:真实点击)。
Open-AutoGLM做的,就是把“你”换成了智谱的视觉语言模型,把“他”换成了你的手机。
它不靠预设规则(比如“所有App的搜索框都在右上角”),而是每次根据当前截图,动态推理出最可能的操作——这才是真正的“智能”,而不是“脚本”。
所以它不怕App更新:界面变了?没关系,AI重新看图分析;
所以它能跨App:从微信跳到美团?没问题,模型理解的是“任务流”,不是单个App。
你不需要懂Transformer,只需要知道:它看的是真截图,点的是真屏幕,干的是真事情。
5. 常见问题速查:卡住时,先看这5条
| 问题现象 | 最可能原因 | 一句话解决 |
|---|---|---|
adb devices不显示设备 | USB调试未开 / 数据线仅充电 | 换线、重启手机、重开USB调试、检查电脑驱动 |
运行报错Connection refused | 智谱API Key错误 / URL拼错 | 检查Key是否复制完整、URL末尾是否有斜杠、是否用了中文引号 |
| AI一直“思考中”,无响应 | 网络慢 / API限流 / 指令太模糊 | 换WiFi、检查智谱控制台剩余token、把“那个店”改成“评分4.8分的‘南翔馒头店’” |
| 点错了位置,或输错字 | 截图模糊 / 屏幕亮度低 / 字体太小 | 调高手机亮度、清理屏幕指纹、确保截图清晰(可手动截一张看) |
| 执行到一半停住,提示“需人工确认” | 遇到登录页、支付密码、验证码 | 这是安全设计!此时你只需手动输密码,AI会继续后续流程 |
终极技巧:如果某条指令总失败,把它拆成两句。比如:
❌ “打开小红书,搜‘北京胡同咖啡’,收藏前五篇”
先输:“打开小红书,搜索‘北京胡同咖啡’”
等它完成搜索页后,再输:“点击第一篇笔记,点收藏按钮”
分步执行,成功率飙升。
6. 总结:你已经拥有了一个会动手的AI伙伴
回顾这一路:
我们没编一行业务逻辑,没调一个模型参数,没配一个GPU驱动;
只做了三件事:
✔ 在手机上打开“眼睛”(USB调试)和“手”(ADB Keyboard);
✔ 在电脑上装好“遥控器”(ADB)和“通信协议”(Python环境);
✔ 向智谱借来“大脑”(API Key),用一句话下达任务。
结果呢?
AI替你完成了从打开App、搜索、浏览、选择、填写、到下单的全链路操作。它不完美,但足够真实;它有延迟,但省下了你划屏的3分钟;它会卡在验证码,但之后的10步它全包了。
这不是科幻,是今天就能跑起来的技术。
它背后的意义,远不止“点外卖”:
- 对个人:把手机上重复、机械、费眼的操作,交给AI;
- 对开发者:提供了一个开箱即用的Phone Agent框架,可基于它快速构建垂类助手(如“老人手机管家”“跨境购物比价助手”);
- 对产品人:验证了“多模态Agent + 真机操控”这条技术路径的可行性。
下一步你可以:
→ 尝试更复杂的指令,比如“对比美团和饿了么上同一家店的配送费,选便宜的下单”;
→ 把指令写成批处理脚本,每天早上自动领咖啡券;
→ 查看main.py源码,修改提示词(prompt),让它更懂你的表达习惯;
→ 甚至,用它自动化测试App UI——这才是工程师的隐藏玩法。
技术的价值,从来不在多炫酷,而在多实在。
当你第一次看着AI替你点好外卖,手机弹出“订单已提交”,那一刻你会明白:
它不是替代你,而是把那些本不该消耗你注意力的小事,轻轻接了过去。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。