news 2026/3/18 15:15:25

用Open-AutoGLM做了一个自动购物机器人,效果惊艳

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用Open-AutoGLM做了一个自动购物机器人,效果惊艳

用Open-AutoGLM做了一个自动购物机器人,效果惊艳

1. 想让手机自己“动手”?这个AI助手真能干

你有没有这样的经历:想买个东西,得先打开淘宝,再输关键词,翻好几页才找到合适的商品,最后还要比价、看评价、下单……一通操作下来,半小时没了。如果有个AI能听懂你说“帮我找一款百元内降噪好的无线耳机”,然后自己打开App、搜索、筛选、甚至加入购物车——是不是像开了外挂?

这不是科幻。最近我试了智谱开源的Open-AutoGLM,一个专为手机打造的AI Agent框架,真的做出了一个能“自己动手”的自动购物机器人。只要一句话指令,它就能操控我的手机完成整个购物流程,效果出乎意料地流畅,甚至让我有点不敢相信这是开源项目能做到的。

这背后的核心是AutoGLM-Phone,一个基于视觉语言模型(VLM)的手机智能助理框架。它不只是理解文字,还能“看懂”手机屏幕,结合 ADB 实现自动化点击、滑动、输入等操作。换句话说,它像一个会看、会想、还会动手的数字助手。

更关键的是,它支持自然语言交互。你不需要写代码,也不用记复杂命令,就像跟朋友说话一样:“打开京东,搜一下iPhone 15的保护壳,选销量最高的那款,加到购物车。” 它就能一步步执行。

接下来,我就带你从零开始,看看我是怎么用 Open-AutoGLM 搭出这个“自动购物机器人”的,以及它的实际表现到底有多强。


2. 环境准备:三步搞定本地控制端

要让 AI 控制手机,得先在电脑上搭好“指挥中心”。整个过程其实不难,主要分三步:装工具、连设备、跑代码。

2.1 基础环境与ADB配置

你需要:

  • 一台电脑(Windows 或 Mac 都行)
  • 一部安卓手机(Android 7.0以上)
  • Python 3.10+
  • ADB 工具(Android Debug Bridge)

ADB 是连接电脑和手机的桥梁。安装很简单:

Windows 用户

  1. 下载 Android SDK Platform Tools
  2. 解压后,把文件夹路径添加到系统环境变量Path
  3. 打开命令行,输入adb version,能看到版本号就说明成功了

Mac 用户: 直接在终端运行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设你解压到了 Downloads 文件夹)

2.2 手机设置:开启开发者权限

在手机上做三件事:

  1. 开启开发者模式:进入“设置 → 关于手机”,连续点击“版本号”7次,直到提示“您已进入开发者模式”
  2. 开启USB调试:回到设置,进入“开发者选项”,勾选“USB调试”
  3. 安装 ADB Keyboard:这是一个虚拟输入法,能让 AI 通过 ADB 输入文字。下载 APK 安装后,在“语言与输入法”里把它设为默认输入法

做完这些,手机就算“解锁”了,可以接受外部控制。

2.3 部署 Open-AutoGLM 控制端

现在轮到主角登场。在本地电脑上执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

这几条命令会下载项目代码并安装所有依赖。完成后,你的电脑就具备了“指挥”手机的能力。


3. 连接手机:USB还是WiFi?两种方式都行

手机和电脑连上了,AI才能“看见”屏幕、“触摸”界面。

3.1 USB连接(推荐新手)

用数据线把手机连上电脑,然后运行:

adb devices

如果看到类似ABCDEF123 device的输出,说明连接成功。那个ABCDEF123就是你的设备ID。

3.2 WiFi远程连接(更自由)

不想被线缆束缚?可以用WiFi远程控制。

先用USB连接,开启ADB的TCP模式:

adb tcpip 5555

然后拔掉数据线,在同一局域网下运行:

adb connect 192.168.x.x:5555

192.168.x.x换成你手机的IP地址(在Wi-Fi设置里能找到)。连接成功后,即使手机放在客厅,你也能在书房用AI操控它。


4. 让AI接管手机:一句话启动自动购物

一切准备就绪,现在让AI上场。

4.1 启动模型服务(云端或本地)

Open-AutoGLM 本身是控制框架,真正的“大脑”是一个视觉语言模型。你可以选择:

  • 本地部署:如果你有显卡,可以用 vLLM 启动模型
  • 云端调用:更简单,直接连到已部署好的服务器

以本地为例,启动模型服务:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动后,模型服务就在http://localhost:8000/v1等着被调用。

4.2 下达指令,见证自动化奇迹

现在,运行主程序,给AI下任务:

python main.py \ --device-id ABCDEF123 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开淘宝,搜索百元内降噪好的无线耳机,点进销量第一的商品详情页"

你可能会好奇:AI是怎么做到的?

  1. 看屏幕:每一步,AI都会通过ADB截一张图,作为“眼睛”输入给视觉语言模型
  2. 理解界面:模型分析截图,识别出按钮、输入框、商品卡片等元素
  3. 规划动作:根据你的指令,AI决定下一步是点击“淘宝”图标,还是在搜索框输入文字
  4. 执行操作:通过ADB发送点击、滑动、输入等指令,真正“动手”

整个过程像极了一个人在操作手机,但速度更快、不会出错。


5. 实测效果:自动购物机器人到底有多强?

我亲自测试了几个典型场景,结果让我大呼过瘾。

5.1 场景一:跨App比价购物

指令:

“打开京东和拼多多,分别搜‘小米台灯Pro’,对比价格,把便宜的那个加入购物车。”

AI 的执行流程:

  1. 打开京东,搜索“小米台灯Pro”,记录第一个商品价格
  2. 返回桌面,打开拼多多,同样搜索,记录价格
  3. 比较两个价格,选择更低的平台
  4. 点击“加入购物车”

整个过程耗时约45秒,完全无需干预。最让我惊讶的是,它能在不同App间自如切换,逻辑清晰,像有“记忆”一样。

5.2 场景二:复杂筛选+人工确认

指令:

“打开淘宝,搜‘男士冬季羽绒服’,筛选价格500-800元,按销量排序,点进前三个商品,把看起来最厚实的那个加入购物车。”

AI 做到了:

  • 成功应用价格筛选
  • 按销量排序并滑动浏览
  • 通过视觉判断“厚实程度”(比如看模特穿着的蓬松感)
  • 最后弹出确认框:“检测到需登录,是否继续?”——这是内置的敏感操作保护机制

我手动点击“继续”后,AI 完成了加购。这种“AI决策 + 人工兜底”的设计,既智能又安全。

5.3 场景三:多步骤任务链

指令:

“打开小红书,搜‘北京周末去哪玩’,收藏点赞最高的笔记,然后打开高德地图,导航到笔记里提到的地点。”

AI 表现:

  • 准确识别“点赞最高”的笔记(通过UI位置和数字判断)
  • 成功收藏
  • 提取笔记中的地点名称(如“奥森公园”)
  • 自动打开高德地图,输入地点,启动导航

这已经不是简单的自动化,而是一个能跨应用、理解语义、执行复杂任务链的智能体。


6. 为什么Open-AutoGLM这么强?三大技术亮点

6.1 多模态理解:不只是“读文字”,而是“看画面”

传统自动化工具(如按键精灵)靠坐标或控件ID操作,一旦界面变化就失效。而 Open-AutoGLM 使用视觉语言模型,能像人一样“看懂”屏幕。

比如,它知道“搜索框”长什么样,即使换了App也能识别;它能分辨“立即购买”和“加入购物车”按钮的位置和颜色差异。

6.2 自主规划:不是脚本回放,而是动态决策

很多自动化是“录制-回放”模式,固定流程。而 Open-AutoGLM 能根据当前屏幕状态动态规划下一步

举个例子:你想搜“星巴克”,但淘宝首页没有搜索框。AI 会先尝试下滑,发现没出现,于是判断需要先进入“百亿补贴”频道,再找搜索入口——这种灵活性,接近人类的操作思维。

6.3 安全机制:敏感操作有人工接管

涉及支付、登录、删除等操作时,AI 不会贸然执行。它会暂停,弹出提示让你确认。同时支持验证码场景的人工介入,避免自动化卡住。


7. 常见问题与优化建议

7.1 连接失败怎么办?

  • 检查ADB:确保adb devices能看到设备
  • 防火墙:如果是远程连接,确认云服务器放行了端口(如8000)
  • WiFi稳定性:远程ADB容易断连,建议测试时用USB

7.2 AI乱点或无响应?

  • 模型加载问题:检查 vLLM 启动参数,尤其是--max-model-len--mm-processor-cache-type
  • 屏幕适配:不同手机分辨率可能影响识别,可调整截图缩放比例
  • 指令模糊:避免说“找个好看的耳机”,改用“搜‘半入耳式无线耳机’,选评分4.8以上的”

7.3 如何提升成功率?

  • 保持网络畅通:模型推理依赖网络,延迟高会影响体验
  • 关闭省电模式:防止手机自动锁屏或后台杀进程
  • 使用中文模型:国内App多为中文,优先选AutoGLM-Phone-9B而非多语言版

8. 总结:AI Agent的未来,就藏在手机里

用 Open-AutoGLM 搭建自动购物机器人的经历让我意识到:真正的AI智能体,不是只会聊天,而是能替你“动手”做事

它能把我们从重复、繁琐的手机操作中解放出来。早上醒来,一句“帮我订昨晚看的那家餐厅”,AI就能打开大众点评完成预订;出差前说“查一下明天上午去机场的最佳路线”,它就能综合天气、路况给出方案。

更让人兴奋的是,这是开源的。每个人都能部署自己的AI助理,数据留在本地,隐私更有保障。你可以把它训练成专属的购物达人、旅行顾问、工作助手。

技术正在从“辅助输入”走向“自主执行”。Open-AutoGLM 可能只是起点,但它已经让我们看到了未来的样子:手机不再只是一个工具,而是一个有意识、能行动的数字分身。

如果你也想让AI帮你“动手”,不妨试试 Open-AutoGLM。说不定,下一个惊艳的自动化场景,就出自你之手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/16 23:47:18

猫抓资源嗅探器:终极网页内容提取与下载解决方案

猫抓资源嗅探器:终极网页内容提取与下载解决方案 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓cat-catch是一款功能强大的浏览器资源嗅探扩展,能够智能识别和提取网页中…

作者头像 李华
网站建设 2026/3/3 20:58:59

如何定制专属动物形象?Cute_Animal_Qwen_Image进阶教程

如何定制专属动物形象?Cute_Animal_Qwen_Image进阶教程 你是否曾想过,只需输入一句话,就能为孩子生成一只独一无二的可爱小动物形象?无论是会飞的小狐狸、穿背带裤的小熊猫,还是住在云朵上的小绵羊,现在都…

作者头像 李华
网站建设 2026/3/12 14:21:57

Qwen3-4B-Instruct-2507部署教程:单卡4090D实现高性能文本生成

Qwen3-4B-Instruct-2507部署教程:单卡4090D实现高性能文本生成 1. 简介 Qwen3-4B-Instruct-2507 是阿里开源的一款高性能文本生成大模型,专为高效推理和实际应用设计。该模型在多个维度上实现了显著优化,不仅提升了通用能力,还增…

作者头像 李华
网站建设 2026/3/17 23:37:22

OpCore-Simplify终极指南:四步快速搭建完美黑苹果系统

OpCore-Simplify终极指南:四步快速搭建完美黑苹果系统 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 想要轻松搭建稳定可靠的黑苹果系统吗…

作者头像 李华
网站建设 2026/3/17 16:16:14

黑苹果新纪元:OpCore Simplify完全解决方案手册

黑苹果新纪元:OpCore Simplify完全解决方案手册 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的OpenCore配置而头疼&#xff…

作者头像 李华
网站建设 2026/3/9 6:27:11

IDM激活脚本终极指南:3种方法彻底解决30天试用限制

IDM激活脚本终极指南:3种方法彻底解决30天试用限制 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 还在为Internet Download Manager的30天试用期到期…

作者头像 李华