用Open-AutoGLM做了一个自动购物机器人,效果惊艳
1. 想让手机自己“动手”?这个AI助手真能干
你有没有这样的经历:想买个东西,得先打开淘宝,再输关键词,翻好几页才找到合适的商品,最后还要比价、看评价、下单……一通操作下来,半小时没了。如果有个AI能听懂你说“帮我找一款百元内降噪好的无线耳机”,然后自己打开App、搜索、筛选、甚至加入购物车——是不是像开了外挂?
这不是科幻。最近我试了智谱开源的Open-AutoGLM,一个专为手机打造的AI Agent框架,真的做出了一个能“自己动手”的自动购物机器人。只要一句话指令,它就能操控我的手机完成整个购物流程,效果出乎意料地流畅,甚至让我有点不敢相信这是开源项目能做到的。
这背后的核心是AutoGLM-Phone,一个基于视觉语言模型(VLM)的手机智能助理框架。它不只是理解文字,还能“看懂”手机屏幕,结合 ADB 实现自动化点击、滑动、输入等操作。换句话说,它像一个会看、会想、还会动手的数字助手。
更关键的是,它支持自然语言交互。你不需要写代码,也不用记复杂命令,就像跟朋友说话一样:“打开京东,搜一下iPhone 15的保护壳,选销量最高的那款,加到购物车。” 它就能一步步执行。
接下来,我就带你从零开始,看看我是怎么用 Open-AutoGLM 搭出这个“自动购物机器人”的,以及它的实际表现到底有多强。
2. 环境准备:三步搞定本地控制端
要让 AI 控制手机,得先在电脑上搭好“指挥中心”。整个过程其实不难,主要分三步:装工具、连设备、跑代码。
2.1 基础环境与ADB配置
你需要:
- 一台电脑(Windows 或 Mac 都行)
- 一部安卓手机(Android 7.0以上)
- Python 3.10+
- ADB 工具(Android Debug Bridge)
ADB 是连接电脑和手机的桥梁。安装很简单:
Windows 用户:
- 下载 Android SDK Platform Tools
- 解压后,把文件夹路径添加到系统环境变量
Path中 - 打开命令行,输入
adb version,能看到版本号就说明成功了
Mac 用户: 直接在终端运行:
export PATH=${PATH}:~/Downloads/platform-tools(假设你解压到了 Downloads 文件夹)
2.2 手机设置:开启开发者权限
在手机上做三件事:
- 开启开发者模式:进入“设置 → 关于手机”,连续点击“版本号”7次,直到提示“您已进入开发者模式”
- 开启USB调试:回到设置,进入“开发者选项”,勾选“USB调试”
- 安装 ADB Keyboard:这是一个虚拟输入法,能让 AI 通过 ADB 输入文字。下载 APK 安装后,在“语言与输入法”里把它设为默认输入法
做完这些,手机就算“解锁”了,可以接受外部控制。
2.3 部署 Open-AutoGLM 控制端
现在轮到主角登场。在本地电脑上执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .这几条命令会下载项目代码并安装所有依赖。完成后,你的电脑就具备了“指挥”手机的能力。
3. 连接手机:USB还是WiFi?两种方式都行
手机和电脑连上了,AI才能“看见”屏幕、“触摸”界面。
3.1 USB连接(推荐新手)
用数据线把手机连上电脑,然后运行:
adb devices如果看到类似ABCDEF123 device的输出,说明连接成功。那个ABCDEF123就是你的设备ID。
3.2 WiFi远程连接(更自由)
不想被线缆束缚?可以用WiFi远程控制。
先用USB连接,开启ADB的TCP模式:
adb tcpip 5555然后拔掉数据线,在同一局域网下运行:
adb connect 192.168.x.x:5555把192.168.x.x换成你手机的IP地址(在Wi-Fi设置里能找到)。连接成功后,即使手机放在客厅,你也能在书房用AI操控它。
4. 让AI接管手机:一句话启动自动购物
一切准备就绪,现在让AI上场。
4.1 启动模型服务(云端或本地)
Open-AutoGLM 本身是控制框架,真正的“大脑”是一个视觉语言模型。你可以选择:
- 本地部署:如果你有显卡,可以用 vLLM 启动模型
- 云端调用:更简单,直接连到已部署好的服务器
以本地为例,启动模型服务:
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000启动后,模型服务就在http://localhost:8000/v1等着被调用。
4.2 下达指令,见证自动化奇迹
现在,运行主程序,给AI下任务:
python main.py \ --device-id ABCDEF123 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开淘宝,搜索百元内降噪好的无线耳机,点进销量第一的商品详情页"你可能会好奇:AI是怎么做到的?
- 看屏幕:每一步,AI都会通过ADB截一张图,作为“眼睛”输入给视觉语言模型
- 理解界面:模型分析截图,识别出按钮、输入框、商品卡片等元素
- 规划动作:根据你的指令,AI决定下一步是点击“淘宝”图标,还是在搜索框输入文字
- 执行操作:通过ADB发送点击、滑动、输入等指令,真正“动手”
整个过程像极了一个人在操作手机,但速度更快、不会出错。
5. 实测效果:自动购物机器人到底有多强?
我亲自测试了几个典型场景,结果让我大呼过瘾。
5.1 场景一:跨App比价购物
指令:
“打开京东和拼多多,分别搜‘小米台灯Pro’,对比价格,把便宜的那个加入购物车。”
AI 的执行流程:
- 打开京东,搜索“小米台灯Pro”,记录第一个商品价格
- 返回桌面,打开拼多多,同样搜索,记录价格
- 比较两个价格,选择更低的平台
- 点击“加入购物车”
整个过程耗时约45秒,完全无需干预。最让我惊讶的是,它能在不同App间自如切换,逻辑清晰,像有“记忆”一样。
5.2 场景二:复杂筛选+人工确认
指令:
“打开淘宝,搜‘男士冬季羽绒服’,筛选价格500-800元,按销量排序,点进前三个商品,把看起来最厚实的那个加入购物车。”
AI 做到了:
- 成功应用价格筛选
- 按销量排序并滑动浏览
- 通过视觉判断“厚实程度”(比如看模特穿着的蓬松感)
- 最后弹出确认框:“检测到需登录,是否继续?”——这是内置的敏感操作保护机制
我手动点击“继续”后,AI 完成了加购。这种“AI决策 + 人工兜底”的设计,既智能又安全。
5.3 场景三:多步骤任务链
指令:
“打开小红书,搜‘北京周末去哪玩’,收藏点赞最高的笔记,然后打开高德地图,导航到笔记里提到的地点。”
AI 表现:
- 准确识别“点赞最高”的笔记(通过UI位置和数字判断)
- 成功收藏
- 提取笔记中的地点名称(如“奥森公园”)
- 自动打开高德地图,输入地点,启动导航
这已经不是简单的自动化,而是一个能跨应用、理解语义、执行复杂任务链的智能体。
6. 为什么Open-AutoGLM这么强?三大技术亮点
6.1 多模态理解:不只是“读文字”,而是“看画面”
传统自动化工具(如按键精灵)靠坐标或控件ID操作,一旦界面变化就失效。而 Open-AutoGLM 使用视觉语言模型,能像人一样“看懂”屏幕。
比如,它知道“搜索框”长什么样,即使换了App也能识别;它能分辨“立即购买”和“加入购物车”按钮的位置和颜色差异。
6.2 自主规划:不是脚本回放,而是动态决策
很多自动化是“录制-回放”模式,固定流程。而 Open-AutoGLM 能根据当前屏幕状态动态规划下一步。
举个例子:你想搜“星巴克”,但淘宝首页没有搜索框。AI 会先尝试下滑,发现没出现,于是判断需要先进入“百亿补贴”频道,再找搜索入口——这种灵活性,接近人类的操作思维。
6.3 安全机制:敏感操作有人工接管
涉及支付、登录、删除等操作时,AI 不会贸然执行。它会暂停,弹出提示让你确认。同时支持验证码场景的人工介入,避免自动化卡住。
7. 常见问题与优化建议
7.1 连接失败怎么办?
- 检查ADB:确保
adb devices能看到设备 - 防火墙:如果是远程连接,确认云服务器放行了端口(如8000)
- WiFi稳定性:远程ADB容易断连,建议测试时用USB
7.2 AI乱点或无响应?
- 模型加载问题:检查 vLLM 启动参数,尤其是
--max-model-len和--mm-processor-cache-type - 屏幕适配:不同手机分辨率可能影响识别,可调整截图缩放比例
- 指令模糊:避免说“找个好看的耳机”,改用“搜‘半入耳式无线耳机’,选评分4.8以上的”
7.3 如何提升成功率?
- 保持网络畅通:模型推理依赖网络,延迟高会影响体验
- 关闭省电模式:防止手机自动锁屏或后台杀进程
- 使用中文模型:国内App多为中文,优先选
AutoGLM-Phone-9B而非多语言版
8. 总结:AI Agent的未来,就藏在手机里
用 Open-AutoGLM 搭建自动购物机器人的经历让我意识到:真正的AI智能体,不是只会聊天,而是能替你“动手”做事。
它能把我们从重复、繁琐的手机操作中解放出来。早上醒来,一句“帮我订昨晚看的那家餐厅”,AI就能打开大众点评完成预订;出差前说“查一下明天上午去机场的最佳路线”,它就能综合天气、路况给出方案。
更让人兴奋的是,这是开源的。每个人都能部署自己的AI助理,数据留在本地,隐私更有保障。你可以把它训练成专属的购物达人、旅行顾问、工作助手。
技术正在从“辅助输入”走向“自主执行”。Open-AutoGLM 可能只是起点,但它已经让我们看到了未来的样子:手机不再只是一个工具,而是一个有意识、能行动的数字分身。
如果你也想让AI帮你“动手”,不妨试试 Open-AutoGLM。说不定,下一个惊艳的自动化场景,就出自你之手。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。