news 2026/3/26 18:48:12

小白也能懂的AutoGLM教程:一键实现AI自动点外卖

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小白也能懂的AutoGLM教程:一键实现AI自动点外卖

小白也能懂的AutoGLM教程:一键实现AI自动点外卖

1. 这不是语音助手,是能“看”会“点”的手机AI管家

你有没有过这样的时刻:
手指划到酸软,还在美团里翻第37页“附近好评火锅”;
输入法卡顿,打完“瑞幸拿铁不加冰少糖”发现下单按钮早被误点跳转;
深夜饿得清醒,却连打开外卖App的力气都没有——更别说在几十个弹窗和广告中精准点击“立即支付”。

别急着叹气。这次我们不用写代码、不配显卡、不折腾Docker,只用一台普通电脑+一部安卓手机,就能让AI替你完成整套操作:看屏幕、识按钮、点图标、输文字、选规格、点下单——全程自然语言一句话搞定。

这就是智谱开源的Open-AutoGLM,一个真正意义上的“手机端AI Agent”。它不是调API回个文字,而是像真人一样:
用眼睛(截图)理解你手机当前界面长什么样;
用脑子(视觉语言模型)判断“搜索框在哪”“‘去结算’按钮坐标是多少”;
用手(ADB指令)真实点击、滑动、输入,不模拟、不截图、不猜测——真·执行。

标题里说“自动点外卖”,只是它最接地气的一个切口。它还能:

  • “打开小红书搜‘上海平价日料’,保存前三篇笔记”
  • “进微信,给‘妈妈’发语音‘我今晚加班,不回家吃饭’”
  • “打开高德地图,查从公司到虹桥站的地铁末班车时间”

只要是你能在手机上手动完成的事,它就有可能替你做。而今天这篇教程,就是专为零基础小白写的落地指南——不讲原理、不堆参数、不画架构图,只告诉你:
🔹 该装什么、连什么、点哪里;
🔹 哪一步最容易卡住、怎么一眼看出问题;
🔹 一句命令就能让AI开始干活,连“外卖”两个字都不用提。

准备好了吗?我们直接开干。

2. 三步搭好环境:手机、电脑、AI大脑全连通

2.1 手机端:打开“天眼”和“遥控接收器”

这一步决定AI能不能“看见”你的屏幕、“摸到”你的手机。别跳过,90%的问题出在这里。

第一步:开启开发者模式
进入手机「设置」→「关于手机」→连续快速点击「版本号」7次(部分机型需10次),直到弹出提示:“您已处于开发者模式”。

第二步:打开USB调试
返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」。
注意:部分品牌(如华为、小米)还需额外开启「USB安装」和「USB调试(安全设置)」,勾选全部。

第三步:装好ADB Keyboard(关键!)
这是让AI能“打字”的核心组件。

  • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
  • 用USB线连接手机与电脑,在命令行输入:
adb install -r ADBKeyboard.apk
  • 安装成功后,进入手机「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」并设为默认。

验证是否成功:断开USB线,用WiFi连上同一网络,再运行adb devices,若显示设备ID且状态为device,说明手机已准备好接收指令。

2.2 电脑端:装好“遥控发射器”和“通信协议”

你不需要GPU,甚至不需要Linux——Windows或Mac都能跑。

安装ADB工具(5分钟搞定)

  • Windows用户:下载Android SDK Platform-Tools,解压到C:\platform-tools

  • 在「系统属性」→「环境变量」→「系统变量」→「Path」中添加该路径;

  • 打开新命令行,输入adb version,看到版本号即成功。

  • Mac用户:终端执行

curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH=$PATH:$(pwd)/platform-tools

(建议将export行加入~/.zshrc永久生效)

创建干净的Python环境(强烈推荐)

# 使用conda(更稳) conda create -n autoglm python=3.10 conda activate autoglm # 或用venv python -m venv autoglm_env source autoglm_env/bin/activate # Mac/Linux # autoglm_env\Scripts\activate # Windows

2.3 AI大脑:用智谱API,免部署、零显卡

Open-AutoGLM支持两种模式:本地部署大模型(需显卡)或调用云端API(本文推荐)。
我们选后者——注册即用、免费额度充足、无需配置vLLM、不占你电脑1MB显存

  • 访问 智谱AI官网,注册账号;
  • 进入「API Key管理」,点击「创建API Key」,复制保存(形如sk-xxx);
  • 关键提醒:这个Key要全程用英文双引号包裹,比如"sk-abc123",漏掉引号必报错。

现在,你的手机是“手和眼”,电脑是“遥控器”,智谱API是“大脑”——三者已就位。

3. 一行命令启动:让AI开始点外卖

3.1 最简启动:一句话,真执行

确保手机已通过USB或WiFi连接电脑(adb devices能看到设备),然后在终端进入项目目录,执行:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥" \ "打开美团,搜索‘杭州西湖边的龙井虾仁’,点进第一家店,选‘堂食’,加一份龙井虾仁,下单"

注意事项:

  • --base-url固定为https://open.bigmodel.cn/api/paas/v4(智谱官方API地址);
  • --model必须写"autoglm-phone"(注意是phone,不是phone-9b或其他);
  • 指令必须是完整、具体、带动作链的中文自然句,避免模糊词如“那个”“上面”“右边”;
  • 如果用Windows且报UnicodeDecodeError(GBK读UTF-8文件错误),请打开scripts/check_deployment_cn.py,在with open(...)行末尾加上encoding='utf-8'

执行后,你会看到AI开始工作:

  1. 自动截取手机当前屏幕;
  2. 将截图+文字指令一起发给智谱模型;
  3. 模型返回结构化操作步骤(如“点击坐标(520, 180)”“输入文字‘龙井虾仁’”);
  4. ADB自动执行,手机屏幕实时响应。

整个过程无需你干预,就像看着另一个人在帮你操作。

3.2 进阶用法:交互模式,像聊天一样下指令

不想每次改命令?用交互模式:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥"

运行后会出现提示:

Enter your task:

这时你就可以像跟朋友说话一样输入:
→ “打开抖音,搜‘健身餐食谱’,关注前三个博主”
→ “进微信,把昨天那张猫图发给‘同事小王’”
→ “打开高德,导航到最近的瑞幸咖啡,避开拥堵”

每输一条,AI立刻执行,结果实时反馈在终端。适合反复测试、快速验证想法。

3.3 真实效果:它真的点成了吗?

我们实测了“点外卖”全流程(手机:vivo S20,电脑:MacBook Pro M1):

  • 指令:“打开饿了么,搜‘上海静安寺附近生煎’,选‘大壶春’,点单‘鲜肉生煎+豆浆’,备注‘不要葱’,下单”
  • 实际耗时:约82秒(含截图分析、模型推理、ADB执行延迟);
  • 成功节点:
    ✓ 自动识别饿了么首页搜索框并点击;
    ✓ 准确输入“上海静安寺附近生煎”并触发搜索;
    ✓ 在结果页精准定位“大壶春”店铺卡片并点击进入;
    ✓ 识别菜品列表,“鲜肉生煎”和“豆浆”按钮坐标无误;
    ✓ 在备注栏输入“不要葱”,未误触其他选项;
    ✓ 最终跳转至支付页,显示“待支付”状态。

当前限制(坦诚告知):

  • 遇到图形验证码、短信验证、人脸识别等强安全环节,AI会主动暂停并提示“需人工接管”;
  • 部分App深度定制UI(如某些银行App),控件识别率略低,建议优先用于美团、抖音、微信、高德等主流应用;
  • WiFi连接稳定性影响执行流畅度,首次建议用USB线直连。

但请记住:这不是一个“完美无缺”的工具,而是一个已能稳定完成真实任务的AI Agent原型——它的价值不在100%成功率,而在把“重复性手机操作”这件事,第一次交给了AI。

4. 为什么它能看懂屏幕、还能点准?一句话讲清原理

很多教程一上来就讲VLM、RLHF、Action Space,反而让人更懵。我们换种说法:

想象你教一个刚来中国的朋友点外卖:

  • 你先给他手机,让他自己看屏幕(截图 → 视觉输入);
  • 你告诉他:“现在你要找一个放大镜图标,它通常在右上角,点一下”(文字指令 → 语言输入);
  • 他眯着眼找,终于看到——但不确定是不是,于是拍张照发给你(多模态对齐:图文联合理解);
  • 你一看:“对,就是它,坐标大概x=920, y=120”(模型输出:像素级操作坐标);
  • 他伸手过去,稳稳点中(ADB执行:真实点击)。

Open-AutoGLM做的,就是把“你”换成了智谱的视觉语言模型,把“他”换成了你的手机。
它不靠预设规则(比如“所有App的搜索框都在右上角”),而是每次根据当前截图,动态推理出最可能的操作——这才是真正的“智能”,而不是“脚本”。

所以它不怕App更新:界面变了?没关系,AI重新看图分析;
所以它能跨App:从微信跳到美团?没问题,模型理解的是“任务流”,不是单个App。

你不需要懂Transformer,只需要知道:它看的是真截图,点的是真屏幕,干的是真事情。

5. 常见问题速查:卡住时,先看这5条

问题现象最可能原因一句话解决
adb devices不显示设备USB调试未开 / 数据线仅充电换线、重启手机、重开USB调试、检查电脑驱动
运行报错Connection refused智谱API Key错误 / URL拼错检查Key是否复制完整、URL末尾是否有斜杠、是否用了中文引号
AI一直“思考中”,无响应网络慢 / API限流 / 指令太模糊换WiFi、检查智谱控制台剩余token、把“那个店”改成“评分4.8分的‘南翔馒头店’”
点错了位置,或输错字截图模糊 / 屏幕亮度低 / 字体太小调高手机亮度、清理屏幕指纹、确保截图清晰(可手动截一张看)
执行到一半停住,提示“需人工确认”遇到登录页、支付密码、验证码这是安全设计!此时你只需手动输密码,AI会继续后续流程

终极技巧:如果某条指令总失败,把它拆成两句。比如:
❌ “打开小红书,搜‘北京胡同咖啡’,收藏前五篇”
先输:“打开小红书,搜索‘北京胡同咖啡’”
等它完成搜索页后,再输:“点击第一篇笔记,点收藏按钮”

分步执行,成功率飙升。

6. 总结:你已经拥有了一个会动手的AI伙伴

回顾这一路:
我们没编一行业务逻辑,没调一个模型参数,没配一个GPU驱动;
只做了三件事:
✔ 在手机上打开“眼睛”(USB调试)和“手”(ADB Keyboard);
✔ 在电脑上装好“遥控器”(ADB)和“通信协议”(Python环境);
✔ 向智谱借来“大脑”(API Key),用一句话下达任务。

结果呢?
AI替你完成了从打开App、搜索、浏览、选择、填写、到下单的全链路操作。它不完美,但足够真实;它有延迟,但省下了你划屏的3分钟;它会卡在验证码,但之后的10步它全包了。

这不是科幻,是今天就能跑起来的技术。
它背后的意义,远不止“点外卖”:

  • 对个人:把手机上重复、机械、费眼的操作,交给AI;
  • 对开发者:提供了一个开箱即用的Phone Agent框架,可基于它快速构建垂类助手(如“老人手机管家”“跨境购物比价助手”);
  • 对产品人:验证了“多模态Agent + 真机操控”这条技术路径的可行性。

下一步你可以:
→ 尝试更复杂的指令,比如“对比美团和饿了么上同一家店的配送费,选便宜的下单”;
→ 把指令写成批处理脚本,每天早上自动领咖啡券;
→ 查看main.py源码,修改提示词(prompt),让它更懂你的表达习惯;
→ 甚至,用它自动化测试App UI——这才是工程师的隐藏玩法。

技术的价值,从来不在多炫酷,而在多实在。
当你第一次看着AI替你点好外卖,手机弹出“订单已提交”,那一刻你会明白:
它不是替代你,而是把那些本不该消耗你注意力的小事,轻轻接了过去。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/23 21:27:39

颠覆文件管理:用FileMeta实现80%效率提升的元数据革命

颠覆文件管理:用FileMeta实现80%效率提升的元数据革命 【免费下载链接】FileMeta Enable Explorer in Vista, Windows 7 and later to see, edit and search on tags and other metadata for any file type 项目地址: https://gitcode.com/gh_mirrors/fi/FileMeta…

作者头像 李华
网站建设 2026/3/12 18:27:40

DeepSeek-Coder-V2:338种语言的AI编程加速引擎

DeepSeek-Coder-V2:338种语言的AI编程加速引擎 【免费下载链接】DeepSeek-Coder-V2-Lite-Instruct 开源代码智能利器——DeepSeek-Coder-V2,性能比肩GPT4-Turbo,全面支持338种编程语言,128K超长上下文,助您编程如虎添翼…

作者头像 李华
网站建设 2026/3/24 12:33:34

解锁BT下载速度极限:分布式节点优化与提速技巧全指南

解锁BT下载速度极限:分布式节点优化与提速技巧全指南 【免费下载链接】trackerslist Updated list of public BitTorrent trackers 项目地址: https://gitcode.com/GitHub_Trending/tr/trackerslist BT下载速度优化一直是困扰用户的核心问题。你是否遇到过种…

作者头像 李华
网站建设 2026/3/26 1:32:21

5分钟上手AI图像抠图,科哥Unet镜像让单张/批量处理超简单

5分钟上手AI图像抠图,科哥Unet镜像让单张/批量处理超简单 1. 开门见山:不用装环境,点开就能抠图 你是不是也遇到过这些场景: 给客户做产品图,要换十种背景色,手动抠图一上午就没了;做电商详情…

作者头像 李华
网站建设 2026/3/25 0:32:23

语音识别太难?试试这个一键运行的Paraformer中文模型

语音识别太难?试试这个一键运行的Paraformer中文模型 你是不是也遇到过这些情况: 会议录音转文字,结果错得离谱,连人名都认不出来访谈音频要整理成文字稿,手动听写一小时才整理出三分钟内容想用语音输入写文档&#…

作者头像 李华
网站建设 2026/3/24 13:45:51

YOLOv13官方镜像上线后,我的工作效率翻倍了

YOLOv13官方镜像上线后,我的工作效率翻倍了 在智能仓储分拣线上,AGV小车搭载的双目相机每0.8秒就捕获一帧包裹图像,系统需在15毫秒内完成包裹尺寸识别、条码定位与异常包裹判定;在农业无人机巡检中,高清航拍图以每秒3…

作者头像 李华