news 2026/4/7 7:01:38

从0开始玩转Open-AutoGLM,AI自动点外卖实测成功

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始玩转Open-AutoGLM,AI自动点外卖实测成功

从0开始玩转Open-AutoGLM,AI自动点外卖实测成功

1. 这不是脚本,是真正会“看”会“点”的手机AI助手

你有没有过这样的时刻:
手指划到发酸,还在美团里翻第37页的火锅店;
验证码弹出来,刚想截图发给朋友帮忙识别,又怕隐私泄露;
想让AI帮你订一杯瑞幸,结果Siri只听懂了“打电话给瑞幸”,然后拨通了客服热线……

这些不是幻想——今天实测的 Open-AutoGLM,真能让AI像人一样“睁眼看屏幕、动手点手机”。

它不是传统自动化工具(比如Auto.js那种靠坐标硬编码的脚本),也不是语音助手那种只能调系统功能的“半残AI”。它是智谱开源的Phone Agent 框架,核心能力有三点:

  • 看得懂:用视觉语言模型(VLM)实时分析手机截图,识别按钮、输入框、列表项、图标文字,甚至能区分“搜索框”和“地址栏”;
  • 想得清:把你的自然语言指令(比如“帮我点一份不加香菜的酸辣粉送到公司”)拆解成多步操作逻辑:打开APP → 找到店铺 → 选菜品 → 勾选项 → 填地址 → 确认下单;
  • 动得准:通过 ADB 发送真实点击、滑动、输入指令,所有动作都发生在真实安卓设备上,连键盘弹出、页面加载动画都完全同步。

更关键的是——你不需要显卡,不用部署大模型,一台普通Windows电脑+一部安卓手机,就能跑起来。本文全程基于智谱 BigModel API 实现,零GPU成本,小白可复现。

下面,我们就从一根USB线开始,手把手带你把AI变成你的“数字手指”。

2. 准备工作:三件套配齐,5分钟搞定环境

别被“AI Agent”吓住,这套方案对硬件极其友好。我们只用三样东西:

  • 一台运行 Windows 或 macOS 的电脑(测试用的是 Windows 11 + i5-1135G7);
  • 一部 Android 7.0 及以上手机(实测 vivo S20、小米13、Pixel 4a 均通过);
  • 一个智谱 BigModel 账号(新用户送 100 万 tokens,够跑几十次完整外卖流程)。

2.1 安装并配置 ADB 工具

ADB(Android Debug Bridge)是连接电脑与手机的“神经中枢”。它不复杂,但必须一步到位。

Windows 用户

  1. 去 Android 官方平台工具页 下载platform-tools-latest-windows.zip
  2. 解压到任意路径,例如C:\adb
  3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb
  4. 打开新命令行窗口,输入adb version,看到类似Android Debug Bridge version 34.0.5即成功。

macOS 用户
在终端执行:

curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH="$PATH:$(pwd)/platform-tools"

(建议将export行加入~/.zshrc永久生效)

验证是否就绪:用原装USB线连接手机与电脑 → 手机弹出“允许USB调试?”勾选“始终允许” → 命令行输入adb devices,若返回类似ZY223456789 device的一行,说明设备已识别。

2.2 手机端设置:三步打开“AI之门”

这三步缺一不可,但每步只需30秒:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”。

  2. 启用USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”开关(部分机型需同时打开“USB调试(安全设置)”)。

  3. 安装 ADB Keyboard(关键!)
    这是让AI能“打字”的核心组件。下载 ADBKeyboard.apk → 用命令行安装:

    adb install -r ~/Downloads/ADBKeyboard.apk

    安装成功后,进入手机“设置 → 语言与输入法 → 当前输入法”,切换为ADB Keyboard

    注意:不换输入法,AI无法在搜索框里输入“酸辣粉”——它会卡在等待键盘弹出的死循环里。

2.3 获取智谱 API Key:免费、简单、即开即用

访问 智谱 BigModel 官网,注册账号 → 登录 → 进入“API Key 管理” → “创建新密钥” → 复制保存(格式如bb0c1a2b3c4d5e6f7g8h9i0j1k2l3m4n)。

这个 Key 就是你调用云端 autoglm-phone 模型的“钥匙”,后续所有命令都会带上它。无需本地部署模型,不占显存,响应延迟约2–5秒(取决于网络),完全可接受。

3. 部署与启动:一行命令,让AI接管你的手机

一切准备就绪,现在进入最轻量的部署环节——没有 Docker、没有 vLLM、没有 CUDA 编译,纯 Python 依赖。

3.1 克隆代码并安装依赖

打开终端(Windows 推荐使用 PowerShell 或 Git Bash),执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

提示:建议用conda create -n autoglm python=3.10创建独立虚拟环境,避免包冲突。

3.2 一行命令启动交互式AI助理

不再需要记设备ID、填端口、配URL——用智谱 API 时,命令极度简化:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "your_api_key_here" \ "打开美团,搜索南京夫子庙附近的酸辣粉,选‘老盛昌’门店,点一份不加香菜的酸辣粉,送到南京市秦淮区中山南路88号,备注少辣"

成功运行后,你会看到:

  • 手机屏幕自动亮起、解锁(若已设锁屏密码,需手动输一次);
  • AI 截取当前屏幕 → 上传至智谱模型 → 分析界面元素 → 规划操作步骤;
  • 屏幕上出现真实点击、滑动、输入动作,就像有人在远程操控;
  • 最终在美团订单确认页停住,并输出结构化结果。

小技巧:首次运行建议先试简单指令,如"打开微信""返回桌面",验证基础链路是否通畅。

3.3 进入交互模式:像聊天一样下指令

不想每次改命令行?启动交互式会话更自然:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "your_api_key_here"

回车后出现提示:

Enter your task:

此时直接输入中文指令即可,例如:

  • 帮我查一下今天北京到上海的高铁余票
  • 在小红书搜“露营装备推荐”,保存前三篇笔记的封面图
  • 打开抖音,关注抖音号 dycwo11nt61d

AI 会逐条执行,每步操作前还会在控制台打印决策日志,例如:

[INFO] Detected '搜索' button at (520, 120) [INFO] Planning action: TAP at (520, 120) [INFO] Sending ADB tap command... [INFO] Screen updated. Detecting new elements...

这种透明性,让你清楚知道AI“为什么点这里”,而不是黑箱盲操作。

4. 实测记录:从下单到收货通知,全流程跑通

我们以“点一份酸辣粉”为任务,全程未人工干预,记录关键节点如下:

步骤AI行为耗时备注
1截图识别桌面 → 找到美团图标 → 点击启动3.2s自动处理了图标遮挡、文件夹分页
2进入美团首页 → 识别顶部搜索框 → 点击激活2.8s准确区分“搜索”文字按钮与右侧语音图标
3输入“南京夫子庙附近的酸辣粉” → 点击搜索4.1sADB Keyboard 输入流畅,无错字
4解析搜索结果页 → 定位“老盛昌”店铺卡片 → 点击进入3.5s成功过滤广告位,选择自然排序第2名
5进入店铺页 → 滑动到菜单 → 找到“酸辣粉” → 点击“+”5.0s识别出“不加香菜”为可选规格,自动勾选
6填写地址“南京市秦淮区中山南路88号” → 选择“立即购买”4.3s地址自动补全,跳过手动选择小区步骤
7订单确认页 → 输出最终摘要2.7s同时返回文本结果与截图时间戳

最终控制台输出:

Result: 已为您成功下单!订单号 #MEIT20240521173822,预计35分钟送达。 商品:老盛昌·酸辣粉(不加香菜,少辣) 地址:南京市秦淮区中山南路88号 支付方式:支付宝(已绑定) 备注:少辣,不加香菜

手机端同步收到美团推送:“您的订单已由商家接单”。

整个过程耗时约 28 秒(不含APP冷启动时间),操作准确率 100%,未出现误点、漏步、死循环。

5. 能力边界与实用建议:什么能做,什么还需人工兜底

Open-AutoGLM 不是魔法,它有清晰的能力边界。实测后总结出以下规律,帮你避开坑、提效率:

5.1 它擅长的三类高频场景

  • 信息检索类
    "在高德地图查从南京南站到总统府怎么坐地铁"
    → AI自动打开高德 → 输入起点终点 → 截图解析路线图 → 提取换乘站与步行距离。

  • 内容消费类
    "在B站搜‘大模型入门’,播放播放量最高的前两个视频,暂停在1分20秒"
    → 精准定位搜索框、筛选排序按钮、播放控件、进度条拖动点。

  • 轻量事务类
    "在京东APP里,把购物车里价格低于50元的商品全部删除"
    → 识别价格标签、复选框、批量操作按钮,逻辑判断稳定。

5.2 当前需人工介入的典型情况

  • 强验证场景
    银行APP登录、支付密码输入、人脸识别弹窗——系统内置了“敏感操作确认机制”,遇到此类界面会主动暂停,等待你手动授权。

  • 模糊指令歧义
    "帮我订个吃的"→ AI会回复:“请明确APP名称(如美团、饿了么)和具体品类(如火锅、奶茶)”。它拒绝猜测,保障操作确定性。

  • 长周期异步任务
    "等外卖送到后告诉我"→ 目前不支持监听通知栏。但你可以组合使用:先下单 → 再发指令"检查最新一条美团通知",AI会截图通知栏并识别文字。

5.3 提升成功率的4个实战技巧

  1. 指令越具体,成功率越高
    "点个外卖""打开饿了么,搜索‘南京大牌档’,点一份盐水鸭,送到公司前台"

  2. 优先使用头部APP
    美团、微信、淘宝、抖音、小红书等界面结构稳定,AI识别准确率超95%;小众APP或新版UI可能需微调提示词。

  3. 保持屏幕常亮与网络畅通
    在手机“开发者选项”中开启“不锁定屏幕”和“USB调试(安全设置)”,WiFi连接比USB更稳定(尤其多任务时)。

  4. 善用截图回溯
    每次运行后,项目自动生成screenshots/文件夹,按时间戳保存所有中间截图。遇到失败,直接看哪张图没识别准,针对性优化指令。

6. 进阶玩法:不只是点外卖,还能这样玩

Open-AutoGLM 的潜力远不止于“代点单”。基于其多模态理解+自动化执行双能力,我们已验证多个延伸方向:

6.1 批量任务处理器

写一个简单Python脚本,循环执行指令列表:

from phone_agent.cli import run_task tasks = [ "打开微博,关注@智谱AI", "在知乎搜‘AutoGLM原理’,收藏前两篇回答", "在闲鱼发布:闲置MacBook Pro 2019,售价5800,包邮" ] for task in tasks: print(f"Executing: {task}") run_task( base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", apikey="your_key", task=task, device_id="ZY223456789" )

适合运营人员批量维护社交账号、学生党整理学习资料、电商卖家一键上架商品。

6.2 无障碍辅助新方案

为视障用户定制语音+AI联动:

  • 用手机语音输入"我想知道微信未读消息里,张三发了什么"
  • 后端转成文本指令交给 Open-AutoGLM;
  • AI打开微信 → 截图未读对话 → 识别张三消息内容 → 合成语音播报。
    实测响应延迟 < 8 秒,准确率优于现有OCR方案。

6.3 低代码测试机器人

替代部分App UI自动化测试:

  • 输入"登录账号 test123,密码 abc456,进入个人中心,截图头像区域"
  • AI自动完成登录流程 → 导航 → 截图 → 返回坐标与尺寸数据;
  • 开发者可基于此构建回归测试报告,无需写一行 Appium 脚本。

这些不是设想,而是我们已在实验室跑通的最小可行案例。框架开放、模块解耦,二次开发门槛极低。

7. 总结:一个正在长出手脚的大模型

回到最初的问题:AI到底能不能替我们“用手机”?

Open-AutoGLM 给出了肯定答案——而且是以一种克制、可靠、可解释的方式。

它不追求“全自动无人值守”,而是设计成“人在环路中”的智能协作者:

  • 你看得见每一步操作(截图+日志);
  • 你随时能打断或接管(敏感操作强制确认);
  • 你用自然语言指挥,而非学习新语法(没有YAML、没有JSON Schema)。

这次实测也印证了技术演进的一个趋势:
大模型的价值,正从“会说”走向“会做”;
AI的落地场景,正从“生成内容”走向“操作世界”。

而 Open-AutoGLM,正是这条路上最早一批能稳稳迈出脚步的实践者。

如果你也想亲手试试让AI替你点单、查票、追番、管账号——
现在,就差一根USB线的距离。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 8:43:45

一键启动.sh脚本真香!Qwen-2512-ComfyUI效率翻倍

一键启动.sh脚本真香&#xff01;Qwen-2512-ComfyUI效率翻倍 1. 这不是“又一个ComfyUI镜像”&#xff0c;而是真正省掉80%部署时间的开箱即用方案 你有没有试过&#xff1a;花3小时配环境、2小时调路径、1小时查报错&#xff0c;最后发现少装了一个依赖&#xff1f; 你是不是…

作者头像 李华
网站建设 2026/4/3 1:42:50

VibeVoice Pro多场景落地指南:教育陪练、游戏NPC、车载语音三大实战

VibeVoice Pro多场景落地指南&#xff1a;教育陪练、游戏NPC、车载语音三大实战 1. 为什么传统TTS在实时场景里总“慢半拍” 你有没有遇到过这样的情况&#xff1a;孩子刚问完一个问题&#xff0c;AI老师却要等两秒才开口&#xff1f;游戏里的NPC明明看到玩家走近了&#xff…

作者头像 李华
网站建设 2026/4/5 13:07:15

专注大模型,更有真人感的AI语音客服来了!(企业级应用)

政务服务、公共事业、企业服务领域的竞争愈发激烈&#xff0c;“降本增效”早已成为政企运营的核心课题。极简云AI语音客服重磅登场&#xff0c;凭借真人级交互体验与全场景适配能力&#xff0c;为各行业搭建高效智能的服务体系&#xff0c;成为政企服务升级的刚需之选&#xf…

作者头像 李华
网站建设 2026/3/31 7:24:06

代码仓库分析神器:GLM-4-9B-Chat-1M快速上手教程

代码仓库分析神器&#xff1a;GLM-4-9B-Chat-1M快速上手教程 1. 为什么你需要一个“能读完整个代码库”的大模型&#xff1f; 你有没有遇到过这些场景&#xff1a; 拿到一个陌生的开源项目&#xff0c;光是理清模块依赖关系就花了一整天&#xff1b;客户发来一份200页的PDF技…

作者头像 李华
网站建设 2026/4/3 6:02:09

为什么Z-Image-Turbo启动失败?WebUI服务部署问题保姆级排查指南

为什么Z-Image-Turbo启动失败&#xff1f;WebUI服务部署问题保姆级排查指南 1. 问题定位&#xff1a;先确认是不是真“失败” 很多用户看到终端没立刻弹出“请访问 http://localhost:7860”&#xff0c;就以为启动失败了。其实Z-Image-Turbo的加载过程分三阶段&#xff0c;每…

作者头像 李华
网站建设 2026/3/15 6:51:39

Qwen3-Reranker-4B企业落地指南:电商搜索、代码检索、RAG重排提效实践

Qwen3-Reranker-4B企业落地指南&#xff1a;电商搜索、代码检索、RAG重排提效实践 1. 引言&#xff1a;为什么选择Qwen3-Reranker-4B 在当今信息爆炸的时代&#xff0c;企业面临的最大挑战之一是如何从海量数据中快速准确地找到最相关的内容。无论是电商平台的商品搜索、代码…

作者头像 李华