用Open-AutoGLM做了一个自动购物机器人，效果惊艳-平芜编程栈

用Open-AutoGLM做了一个自动购物机器人，效果惊艳

1. 想让手机自己“动手”？这个AI助手真能干

你有没有这样的经历：想买个东西，得先打开淘宝，再输关键词，翻好几页才找到合适的商品，最后还要比价、看评价、下单……一通操作下来，半小时没了。如果有个AI能听懂你说“帮我找一款百元内降噪好的无线耳机”，然后自己打开App、搜索、筛选、甚至加入购物车——是不是像开了外挂？

这不是科幻。最近我试了智谱开源的Open-AutoGLM，一个专为手机打造的AI Agent框架，真的做出了一个能“自己动手”的自动购物机器人。只要一句话指令，它就能操控我的手机完成整个购物流程，效果出乎意料地流畅，甚至让我有点不敢相信这是开源项目能做到的。

这背后的核心是AutoGLM-Phone，一个基于视觉语言模型（VLM）的手机智能助理框架。它不只是理解文字，还能“看懂”手机屏幕，结合 ADB 实现自动化点击、滑动、输入等操作。换句话说，它像一个会看、会想、还会动手的数字助手。

更关键的是，它支持自然语言交互。你不需要写代码，也不用记复杂命令，就像跟朋友说话一样：“打开京东，搜一下iPhone 15的保护壳，选销量最高的那款，加到购物车。” 它就能一步步执行。

接下来，我就带你从零开始，看看我是怎么用 Open-AutoGLM 搭出这个“自动购物机器人”的，以及它的实际表现到底有多强。

2. 环境准备：三步搞定本地控制端

要让 AI 控制手机，得先在电脑上搭好“指挥中心”。整个过程其实不难，主要分三步：装工具、连设备、跑代码。

2.1 基础环境与ADB配置

你需要：

一台电脑（Windows 或 Mac 都行）
一部安卓手机（Android 7.0以上）
Python 3.10+
ADB 工具（Android Debug Bridge）

ADB 是连接电脑和手机的桥梁。安装很简单：

Windows 用户：

下载 Android SDK Platform Tools
解压后，把文件夹路径添加到系统环境变量Path中
打开命令行，输入adb version，能看到版本号就说明成功了

Mac 用户：直接在终端运行：

export PATH=${PATH}:~/Downloads/platform-tools

（假设你解压到了 Downloads 文件夹）

2.2 手机设置：开启开发者权限

在手机上做三件事：

开启开发者模式：进入“设置 → 关于手机”，连续点击“版本号”7次，直到提示“您已进入开发者模式”
开启USB调试：回到设置，进入“开发者选项”，勾选“USB调试”
安装 ADB Keyboard：这是一个虚拟输入法，能让 AI 通过 ADB 输入文字。下载 APK 安装后，在“语言与输入法”里把它设为默认输入法

做完这些，手机就算“解锁”了，可以接受外部控制。

2.3 部署 Open-AutoGLM 控制端

现在轮到主角登场。在本地电脑上执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

这几条命令会下载项目代码并安装所有依赖。完成后，你的电脑就具备了“指挥”手机的能力。

3. 连接手机：USB还是WiFi？两种方式都行

手机和电脑连上了，AI才能“看见”屏幕、“触摸”界面。

3.1 USB连接（推荐新手）

用数据线把手机连上电脑，然后运行：

adb devices

如果看到类似ABCDEF123 device的输出，说明连接成功。那个ABCDEF123就是你的设备ID。

3.2 WiFi远程连接（更自由）

不想被线缆束缚？可以用WiFi远程控制。

先用USB连接，开启ADB的TCP模式：

adb tcpip 5555

然后拔掉数据线，在同一局域网下运行：

adb connect 192.168.x.x:5555

把192.168.x.x换成你手机的IP地址（在Wi-Fi设置里能找到）。连接成功后，即使手机放在客厅，你也能在书房用AI操控它。

4. 让AI接管手机：一句话启动自动购物

一切准备就绪，现在让AI上场。

4.1 启动模型服务（云端或本地）

Open-AutoGLM 本身是控制框架，真正的“大脑”是一个视觉语言模型。你可以选择：

本地部署：如果你有显卡，可以用 vLLM 启动模型
云端调用：更简单，直接连到已部署好的服务器

以本地为例，启动模型服务：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动后，模型服务就在http://localhost:8000/v1等着被调用。

4.2 下达指令，见证自动化奇迹

现在，运行主程序，给AI下任务：

python main.py \ --device-id ABCDEF123 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开淘宝，搜索百元内降噪好的无线耳机，点进销量第一的商品详情页"

你可能会好奇：AI是怎么做到的？

看屏幕：每一步，AI都会通过ADB截一张图，作为“眼睛”输入给视觉语言模型
理解界面：模型分析截图，识别出按钮、输入框、商品卡片等元素
规划动作：根据你的指令，AI决定下一步是点击“淘宝”图标，还是在搜索框输入文字
执行操作：通过ADB发送点击、滑动、输入等指令，真正“动手”

整个过程像极了一个人在操作手机，但速度更快、不会出错。

5. 实测效果：自动购物机器人到底有多强？

我亲自测试了几个典型场景，结果让我大呼过瘾。

5.1 场景一：跨App比价购物

指令：

“打开京东和拼多多，分别搜‘小米台灯Pro’，对比价格，把便宜的那个加入购物车。”

AI 的执行流程：

打开京东，搜索“小米台灯Pro”，记录第一个商品价格
返回桌面，打开拼多多，同样搜索，记录价格
比较两个价格，选择更低的平台
点击“加入购物车”

整个过程耗时约45秒，完全无需干预。最让我惊讶的是，它能在不同App间自如切换，逻辑清晰，像有“记忆”一样。

5.2 场景二：复杂筛选+人工确认

指令：

“打开淘宝，搜‘男士冬季羽绒服’，筛选价格500-800元，按销量排序，点进前三个商品，把看起来最厚实的那个加入购物车。”

AI 做到了：

成功应用价格筛选
按销量排序并滑动浏览
通过视觉判断“厚实程度”（比如看模特穿着的蓬松感）
最后弹出确认框：“检测到需登录，是否继续？”——这是内置的敏感操作保护机制

我手动点击“继续”后，AI 完成了加购。这种“AI决策 + 人工兜底”的设计，既智能又安全。

5.3 场景三：多步骤任务链

指令：

“打开小红书，搜‘北京周末去哪玩’，收藏点赞最高的笔记，然后打开高德地图，导航到笔记里提到的地点。”

AI 表现：

准确识别“点赞最高”的笔记（通过UI位置和数字判断）
成功收藏
提取笔记中的地点名称（如“奥森公园”）
自动打开高德地图，输入地点，启动导航

这已经不是简单的自动化，而是一个能跨应用、理解语义、执行复杂任务链的智能体。

6. 为什么Open-AutoGLM这么强？三大技术亮点

6.1 多模态理解：不只是“读文字”，而是“看画面”

传统自动化工具（如按键精灵）靠坐标或控件ID操作，一旦界面变化就失效。而 Open-AutoGLM 使用视觉语言模型，能像人一样“看懂”屏幕。

比如，它知道“搜索框”长什么样，即使换了App也能识别；它能分辨“立即购买”和“加入购物车”按钮的位置和颜色差异。

6.2 自主规划：不是脚本回放，而是动态决策

很多自动化是“录制-回放”模式，固定流程。而 Open-AutoGLM 能根据当前屏幕状态动态规划下一步。

举个例子：你想搜“星巴克”，但淘宝首页没有搜索框。AI 会先尝试下滑，发现没出现，于是判断需要先进入“百亿补贴”频道，再找搜索入口——这种灵活性，接近人类的操作思维。

6.3 安全机制：敏感操作有人工接管

涉及支付、登录、删除等操作时，AI 不会贸然执行。它会暂停，弹出提示让你确认。同时支持验证码场景的人工介入，避免自动化卡住。

7. 常见问题与优化建议

7.1 连接失败怎么办？

检查ADB：确保adb devices能看到设备
防火墙：如果是远程连接，确认云服务器放行了端口（如8000）
WiFi稳定性：远程ADB容易断连，建议测试时用USB

7.2 AI乱点或无响应？

模型加载问题：检查 vLLM 启动参数，尤其是--max-model-len和--mm-processor-cache-type
屏幕适配：不同手机分辨率可能影响识别，可调整截图缩放比例
指令模糊：避免说“找个好看的耳机”，改用“搜‘半入耳式无线耳机’，选评分4.8以上的”

7.3 如何提升成功率？

保持网络畅通：模型推理依赖网络，延迟高会影响体验
关闭省电模式：防止手机自动锁屏或后台杀进程
使用中文模型：国内App多为中文，优先选AutoGLM-Phone-9B而非多语言版

8. 总结：AI Agent的未来，就藏在手机里

用 Open-AutoGLM 搭建自动购物机器人的经历让我意识到：真正的AI智能体，不是只会聊天，而是能替你“动手”做事。

它能把我们从重复、繁琐的手机操作中解放出来。早上醒来，一句“帮我订昨晚看的那家餐厅”，AI就能打开大众点评完成预订；出差前说“查一下明天上午去机场的最佳路线”，它就能综合天气、路况给出方案。

更让人兴奋的是，这是开源的。每个人都能部署自己的AI助理，数据留在本地，隐私更有保障。你可以把它训练成专属的购物达人、旅行顾问、工作助手。

技术正在从“辅助输入”走向“自主执行”。Open-AutoGLM 可能只是起点，但它已经让我们看到了未来的样子：手机不再只是一个工具，而是一个有意识、能行动的数字分身。

如果你也想让AI帮你“动手”，不妨试试 Open-AutoGLM。说不定，下一个惊艳的自动化场景，就出自你之手。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Open-AutoGLM做了一个自动购物机器人，效果惊艳