news 2026/7/2 2:14:48

小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

你有没有试过:想在小红书找一家附近新开的川菜馆,却要反复点开App、输入关键词、翻页筛选、对比图片和评论……整个过程耗时又费眼?更别提还要手动截图发给朋友问意见。如果手机能听懂你一句话,比如“打开小红书搜最近3公里内评分4.8以上的火锅店”,然后自动完成打开App、输入搜索词、滑动浏览、甚至截图保存——这还是科幻吗?

不是。Open-AutoGLM 就是让这件事今天就能跑起来的工具。

它不是另一个大模型API调用库,而是一套真正“能动手”的AI手机智能助理框架。由智谱开源,专为移动端任务自动化设计,核心能力就一句话:看得到、想得清、动得了。它把视觉理解、语言推理和设备操控三件事串成一条流水线,中间不靠人工干预,只靠你一句自然语言指令。

这篇文章不讲论文、不堆参数,只带你从零开始,在自己电脑上连上真机,5分钟内让AI替你打开小红书、搜美食、刷结果——全程可复现、可调试、可扩展。哪怕你没写过ADB命令,也没碰过vLLM,只要照着做,就能亲眼看到AI在你手机屏幕上“自己点、自己输、自己滑”。


1. 先搞懂它到底是什么:不是模型,是会干活的AI助手

很多人第一眼看到“AutoGLM”会下意识以为是又一个语言模型。其实不然——AutoGLM-Phone 是一个端到端的AI Agent框架,它的角色更像一位“数字手艺人”:眼睛是手机屏幕截图(多模态视觉输入),脑子是云端运行的轻量级视觉语言模型(autoglm-phone-9b),双手是ADB指令(点击、滑动、输入、返回)。

它和传统自动化工具(比如Tasker或Appium脚本)有本质区别:

  • 不用写规则逻辑:你不需要定义“先点首页图标→再点搜索框→再输入‘火锅’→再点搜索按钮”。你只说“搜火锅”,AI自己拆解动作。
  • 能看懂界面:不是靠坐标或控件ID硬匹配,而是用视觉语言模型实时理解当前屏幕内容——比如识别出“搜索框”在哪、“关注”按钮长什么样、“笔记卡片”包含哪些信息。
  • 支持动态决策:遇到登录弹窗、验证码、权限请求等不确定场景,它会暂停并提示你人工接管,而不是直接报错崩溃。

Phone Agent 就是基于这个框架构建的完整可用版本。它把所有底层能力打包成清晰接口:屏幕感知 → 意图解析 → 动作规划 → ADB执行 → 结果反馈。你下达指令后,它会在后台默默完成一整套“观察-思考-行动”闭环,最后把结果(比如截图、文字摘要、操作日志)交还给你。

你可以把它理解成:给你的安卓手机配了一个随叫随到、看得懂、想得明、干得利索的AI副驾驶。


2. 硬件与环境准备:三步搞定本地控制端

部署Open-AutoGLM不需要GPU服务器,也不需要Root手机。你只需要一台日常使用的电脑(Windows/macOS均可)、一部安卓真机(Android 7.0+),以及一个稳定的网络连接。

2.1 本地电脑基础配置

  • 操作系统:Windows 10/11 或 macOS Monterey 及以上
  • Python 版本:强烈建议使用 Python 3.10(实测兼容性最好,避免3.12中部分依赖冲突)
  • ADB 工具:Android SDK Platform-Tools(官网下载地址)

验证是否装好:打开终端(Windows用CMD/PowerShell,macOS用Terminal),输入adb version。如果返回类似Android Debug Bridge version 1.0.41的信息,说明已就绪。

Windows 环境变量配置(简明版)
  1. 下载平台工具压缩包,解压到例如C:\platform-tools
  2. Win + R→ 输入sysdm.cpl→ “高级”选项卡 → “环境变量”
  3. 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
  4. 重启终端,再次运行adb version
macOS 快速配置(一行命令)
# 假设你把 platform-tools 解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

2.2 安卓手机设置:三步打开“被控制权”

别担心“开发者模式”听起来很技术——它只是安卓系统里一个隐藏开关,开启后才能让电脑真正操控你的手机。

  1. 开启开发者选项
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示

  2. 启用USB调试
    返回设置主界面 → 系统与更新 → 开发者选项 → 打开“USB调试”开关

    首次开启时,手机会弹出授权对话框,请勾选“始终允许”,并点击“确定”

  3. 安装并启用 ADB Keyboard(关键!)

    • 下载 ADB Keyboard APK(推荐 v1.1)
    • 用USB线安装到手机(或通过微信/QQ传过去安装)
    • 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”

    这一步决定了AI能否“打字”。没有它,模型可以点、可以滑,但无法输入搜索词。


3. 部署控制端:克隆、安装、连接,三行命令起步

Open-AutoGLM 的控制端代码完全开源,结构清晰,无隐藏依赖。我们不编译、不改源码,纯命令行操作。

3.1 下载与安装

打开终端,依次执行:

# 1. 克隆仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含核心ADB封装与HTTP客户端) pip install -r requirements.txt pip install -e .

提示:pip install -e .表示以“开发模式”安装,后续你修改代码(比如调整日志级别、加个截图保存)会立即生效,无需重复安装。

3.2 连接你的手机:USB or WiFi?两种都教

确保手机已通过USB线连接电脑,并且已授权调试。运行:

adb devices

正常输出应类似:

List of devices attached ZY322FDQ67 device

其中ZY322FDQ67就是你的设备ID,后面要用到。

如果你想无线控制(推荐用于长期调试)
  1. 先用USB线连接,执行:
    adb tcpip 5555
  2. 拔掉USB线,确保手机和电脑在同一WiFi下
  3. 查看手机IP(设置 → 关于手机 → 状态 → IP地址),假设是192.168.1.105
  4. 连接WiFi设备:
    adb connect 192.168.1.105:5555

成功后adb devices会显示192.168.1.105:5555 device。断开USB后仍可稳定控制约10–15分钟,超时可重连。


4. 启动AI代理:一句话让AI开始干活

Open-AutoGLM 默认不自带大模型服务——它是一个“指挥官”,需要你提供一个已部署好的视觉语言模型API端点(即--base-url)。你可以选择:

  • 使用官方提供的云服务(需申请API Key)
  • 自建 vLLM + Qwen-VL 或 AutoGLM-Phone 模型服务(本文不展开,但文末有资源指引)
  • 本地快速体验:用 HuggingFace 的免费 Spaces 演示服务(如https://autoglm-phone.hf.space/v1,仅限测试)

我们以本地快速验证为例(假设你已部署好服务,监听在http://localhost:8800/v1):

python main.py \ --device-id ZY322FDQ67 \ --base-url http://localhost:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘北京朝阳区私房菜’,截取前三条笔记的标题和点赞数"

执行后,你会看到终端实时打印日志:

[INFO] 截图已保存至 ./screenshots/20240522_142211.png [INFO] 视觉理解完成:检测到搜索框、底部导航栏、‘发现’标签 [INFO] 意图解析:需启动小红书 → 点击搜索框 → 输入“北京朝阳区私房菜” → 点击搜索 → 滑动查看结果 [INFO] 执行动作:tap(520, 1890) → input_text("北京朝阳区私房菜") → tap(960, 180) [INFO] 成功获取3条笔记:《藏在胡同里的川味》(2.4w赞)、《老板娘手写菜单》(1.8w赞)...

同时,你的手机屏幕会真实发生以下动作:
自动解锁(如已锁屏)
启动小红书App
点击顶部搜索框
输入“北京朝阳区私房菜”
点击搜索按钮
向下滑动浏览前3条笔记
截图并返回结果

整个过程无需你触碰手机,就像看着另一个“你”在操作。


5. 更灵活的调用方式:不只是命令行

如果你计划把它集成进自己的工作流(比如每天自动抓取竞品笔记、批量测试App UI),命令行就不够用了。Open-AutoGLM 提供了干净的 Python API,支持远程连接、设备管理、指令异步提交。

5.1 设备管理与连接(代码即文档)

from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接WiFi设备(也可传入USB设备ID) success, msg = conn.connect("192.168.1.105:5555") print(f"连接状态:{msg}") # 输出:连接成功 # 查看所有已连接设备 for dev in list_devices(): print(f"{dev.device_id} — {dev.connection_type.value}") # 获取设备当前IP(用于后续远程调试) ip = conn.get_device_ip() print(f"设备IP:{ip}")

5.2 发送自然语言指令(一行调用)

from phone_agent.agent import PhoneAgent # 初始化AI代理(指向你的模型服务) agent = PhoneAgent( base_url="http://localhost:8800/v1", model_name="autoglm-phone-9b", device_id="ZY322FDQ67" ) # 下达指令(支持中文,支持长句) result = agent.run("进入小红书个人主页,检查是否有新粉丝,并把头像截图保存") print("执行结果:", result.summary) print("截图路径:", result.screenshot_path)

这段代码可以直接放进你的自动化脚本、定时任务(cron)、甚至Web后端接口里。它返回的是结构化结果对象,含操作步骤、截图路径、文本摘要、错误信息,方便你做后续处理。


6. 常见问题与避坑指南:少走3小时弯路

部署过程中最常卡在三个地方。我们把真实踩过的坑,浓缩成可立即验证的解决方案:

问题现象根本原因一招解决
adb devices显示unauthorized手机未授权电脑调试拔插USB线,手机弹窗点“允许”,勾选“始终允许”
Connection refused(连接模型服务失败)云服务器防火墙未开放端口,或vLLM未监听0.0.0.0检查netstat -tuln | grep 8800;vLLM启动加参数--host 0.0.0.0
AI点了错位置 / 输入框没反应ADB Keyboard未设为默认输入法设置 → 语言与输入法 → 切换为 ADB Keyboard(不是“选择默认”,是“切换”)
模型返回乱码 / 卡住不动vLLMmax_model_len设置过小(<2048)或显存不足启动vLLM时加--max-model-len 4096 --gpu-memory-utilization 0.9
WiFi连接频繁断开路由器省电策略关闭ADB连接改用USB连接,或在手机设置中关闭“WLAN休眠”

终极建议:首次部署,务必先用USB线 + 本地vLLM服务(CPU模式也行)跑通全流程。确认功能正常后,再切WiFi、再上GPU服务。顺序错了,90%的问题都会叠加出现。


7. 总结:你刚刚掌握的,是一项新能力

回顾一下,你已经完成了:

  • 理解了 Open-AutoGLM 的本质:它不是模型,而是让AI真正“动手”的Agent框架
  • 在本地电脑配齐了 ADB、Python、环境变量等基础依赖
  • 在安卓手机上开启了开发者模式、USB调试、并正确启用了 ADB Keyboard
  • 克隆并安装了控制端代码,掌握了 USB/WiFi 两种连接方式
  • 用一条命令让AI自动打开小红书、搜索美食、截图返回结果
  • 学会了用 Python API 把它嵌入自己的脚本,实现真正的工程化调用

这不再只是“调API生成文字”,而是让AI成为你手机上的“数字分身”——它能看、能想、能操作,而且每一步都可追溯、可调试、可定制。

下一步,你可以尝试:
🔹 让它每天早上8点自动打开小红书,抓取“早餐”话题最新爆款笔记
🔹 接入企业微信机器人,同事发“查下XX品牌最新小红书种草”,AI立刻执行并回传图文
🔹 把截图结果喂给另一个OCR模型,自动提取笔记中的门店地址和电话

技术的价值,从来不在参数多高,而在它能不能帮你省下那15分钟、避开那个重复劳动、抓住那个稍纵即逝的灵感。而Open-AutoGLM,就是那把已经递到你手里的钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 22:47:50

字节跳动AHN:Qwen2.5长文本处理效率新标杆

字节跳动AHN&#xff1a;Qwen2.5长文本处理效率新标杆 【免费下载链接】AHN-DN-for-Qwen-2.5-Instruct-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/AHN-DN-for-Qwen-2.5-Instruct-7B 导语&#xff1a;字节跳动推出的AHN&#xff08;Artificial Hi…

作者头像 李华
网站建设 2026/6/26 14:19:36

多主体图片能抠吗?建议先裁剪再单独处理

多主体图片能抠吗&#xff1f;建议先裁剪再单独处理 1. 问题直击&#xff1a;多主体场景下的抠图困境 你有没有试过上传一张合影、全家福&#xff0c;或者电商主图里有多个商品的图片&#xff0c;点下“开始抠图”后&#xff0c;结果却让人皱眉&#xff1f; 不是只抠出一个人…

作者头像 李华
网站建设 2026/6/26 14:19:36

Qwen3-VL-8B-FP8:全能视觉AI推理效率革命!

Qwen3-VL-8B-FP8&#xff1a;全能视觉AI推理效率革命&#xff01; 【免费下载链接】Qwen3-VL-8B-Thinking-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-8B-Thinking-FP8 导语&#xff1a;Qwen3-VL-8B-Thinking-FP8模型重磅发布&#xff0c;通过FP8…

作者头像 李华
网站建设 2026/7/1 1:43:22

BFS-Prover:7B模型如何实现72.95%定理证明突破

BFS-Prover&#xff1a;7B模型如何实现72.95%定理证明突破 【免费下载链接】BFS-Prover-V1-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/BFS-Prover-V1-7B 字节跳动推出的BFS-Prover-V1-7B模型在MiniF2F定理证明基准测试中刷新纪录&#xff0c;以7…

作者头像 李华
网站建设 2026/6/30 16:55:13

DeepSeek-VL2-small:2.8B参数MoE多模态模型初体验

DeepSeek-VL2-small&#xff1a;2.8B参数MoE多模态模型初体验 【免费下载链接】deepseek-vl2-small 融合视觉与语言的DeepSeek-VL2-small模型&#xff0c;采用MoE技术&#xff0c;参数高效&#xff0c;表现卓越&#xff0c;轻松应对视觉问答等多元任务&#xff0c;开启智能多模…

作者头像 李华
网站建设 2026/6/30 18:24:12

单个文件提取embedding,CAM++基础功能演示

单个文件提取embedding&#xff0c;CAM基础功能演示 1. 什么是CAM说话人识别系统 CAM不是语音转文字的工具&#xff0c;它不关心你说的是什么内容&#xff0c;而是专注回答一个更底层的问题&#xff1a;这段声音是谁说的&#xff1f; 这个系统就像给每个人的声音建立了一张独…

作者头像 李华