news 2026/4/15 9:33:48

用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

用Open-AutoGLM做了一个自动刷视频的AI助手,太爽了

你有没有过这样的体验:
晚上躺床上,手指机械地划动短视频App,一刷就是两小时,回过神来发现眼睛干涩、脑子发空,连刚才看了什么都记不清?
这不是懒,是注意力被设计好的反馈机制悄悄劫持了。
但这次,我不再被动滑动——我让AI替我刷,还只刷我真正想看的内容。

上周,我用智谱开源的Open-AutoGLM搭建了一个「自动刷视频AI助手」,它能听懂我说的话,看懂手机屏幕,自己点开App、搜索关键词、滑动推荐流、甚至识别“感兴趣”按钮并点击关注。整个过程不用写一行UI自动化脚本,不碰ADB命令细节,只说一句:“刷10条宠物搞笑视频”,5秒后手机就开始自动执行。

这不是概念演示,是我在真机上跑通、每天用、已替代我手动刷视频的真实工具。
下面,我就把从零到落地的全过程,用最直白的方式讲清楚——不讲架构图,不谈多模态对齐,就讲:你怎么也能30分钟搭一个属于自己的AI刷视频助手

1. 它到底是什么:不是“另一个大模型”,而是一个会“看+想+动”的手机AI管家

先破除一个误解:Open-AutoGLM 不是一个聊天机器人,也不是一个只能回文字的LLM。
它的核心身份是——手机端AI Agent(智能体)

什么意思?
你可以把它理解成一个住在你电脑里的“数字手”,它有三样能力:

  • 眼睛:通过截图实时“看见”你手机屏幕上的每一个按钮、文字、图标(靠视觉语言模型VLM)
  • 脑子:听懂你说的自然语言指令,比如“帮我找最近爆火的健身教程”,并拆解成“打开小红书→点搜索框→输入‘健身教程’→点第一个结果→往下划3屏”(靠AutoGLM的规划能力)
  • :通过ADB(Android调试桥)真的去点击、滑动、输入文字,就像你亲手操作一样(靠底层ADB控制)

关键在于:你不需要告诉它“点坐标(320,680)”,你只需要说人话
它自己看界面、认按钮、判断当前状态、规划下一步、再动手执行——全程闭环。

这就是为什么它叫“Phone Agent”:它不是在模拟用户,它是在扮演用户。

而“Open-AutoGLM”这个名字里的“Open”,指的是它把整套能力都开源了:模型调用逻辑、屏幕理解模块、动作规划器、ADB封装……全在GitHub仓库里,没有黑盒,没有云绑定,你能完全掌控。

2. 真机实操:5步搞定,连Mac新手都能一次成功

别被“VLM”“Agent”这些词吓住。实际部署比装一个微信还简单。我用的是Mac(Windows步骤几乎一致),全程没翻车。以下是真实可复现的步骤,每一步我都标出了“最容易卡住的点”和“我的解决方案”。

2.1 准备你的“硬件三件套”

你只需要三样东西,且大概率已经齐了:

  • 一台安卓手机(Android 7.0以上,我用的是小米12,实测完美)
  • 一台能联网的电脑(Mac/Windows均可)
  • 一根USB数据线(或确保手机和电脑在同一WiFi下)

最容易卡住的点:很多人卡在“ADB连不上”。根本原因不是技术问题,而是手机设置漏了一步
我的确认清单(请逐条核对):

  • 手机“设置 → 关于手机 → 版本号”连续点7次,开启开发者模式
  • “设置 → 更多设置 → 开发者选项 → USB调试”打钩
  • “设置 → 更多设置 → 开发者选项 → USB调试(安全设置)”打钩(这个常被忽略!)
  • 用USB线连接电脑后,在手机上弹出的“允许USB调试吗?”对话框,务必勾选“始终允许”,再点确定

做完这四步,打开终端(Mac)或命令提示符(Win),输入adb devices,如果看到一串设备ID后面跟着device,恭喜,硬件链路通了。

2.2 一分钟配好ADB环境(Mac版)

如果你之前没装过ADB,别怕。Mac上只需一条命令:

# 下载并安装Android Platform Tools(含adb) curl -L https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip sudo mv platform-tools /usr/local/share/ sudo ln -sf /usr/local/share/platform-tools/adb /usr/local/bin/adb

然后在终端输入adb version,看到类似Android Debug Bridge version 34.0.5就成功了。
(Windows用户:去Android官网下载zip包,解压后把路径加到系统环境变量里,网上教程很多,10分钟搞定)

2.3 克隆代码、装依赖:三行命令的事

打开终端,依次执行(复制粘贴即可):

# 1. 克隆官方仓库(别用fork,用原仓,最新最稳) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(强烈建议!避免包冲突) python3 -m venv venv source venv/bin/activate # Mac/Linux;Windows用 venv\Scripts\activate # 3. 安装所有依赖(含ADB控制库和模型通信组件) pip install -r requirements.txt pip install -e .

这里耗时约2分钟(取决于网速)。如果某条命令报错,90%是因为网络问题——把pip install换成pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/(清华源)重试。

2.4 启动你的AI助手:一句话启动,无需改配置

现在,最关键的一步来了:让AI开始工作
回到Open-AutoGLM目录,执行这一行命令(把<your_device_id>替换成你自己的设备ID):

python main.py \ --device-id <your_device_id> \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索‘萌宠日常’,刷5条视频,遇到‘关注’按钮就点一下"

说明

  • --device-id:运行adb devices看到的第一列ID,比如1234567890abcdef
  • --base-url:这里直接用了智谱官方API(免费额度够用),你也可以部署自己的vLLM服务(文档里有详细教程)
  • 最后那句中文,就是你给AI下的指令——它会自己理解、拆解、执行

执行后,你会看到终端快速滚动日志:
[INFO] 截图成功 → [INFO] 屏幕理解中… → [INFO] 规划动作:点击‘抖音’图标 → [INFO] 执行ADB点击…
同时,你的手机屏幕会真实地动起来:自动解锁(如果锁屏)、打开抖音、点搜索框、输入文字、点搜索、开始向上滑动……

整个过程,你只需要看着,像看一个熟练的同事帮你操作。

2.5 进阶技巧:让AI更懂你,不止于“刷”

刚才是“开箱即用”,现在教你三个让它真正变“聪明”的小开关:

  • 开关1:让它学会“跳过”
    默认AI会点所有看到的“关注”按钮。但你想只关注特定博主?加一句约束:
    "打开抖音,搜索‘科技测评’,刷10条,只关注头像带蓝色徽章的账号"
    AI会先识别徽章图标,再决策是否点击。

  • 开关2:让它“记得”你的偏好
    在指令开头加一句:“记住:我喜欢猫、讨厌广告、不看美妆内容”。后续所有指令,它都会自动过滤含广告的视频、跳过美妆类博主。

  • 开关3:人工接管无缝衔接
    如果AI在验证码页卡住(比如登录弹窗),它不会死循环。它会暂停,发通知到你的电脑终端:[WAIT] 检测到验证码,请手动输入后按回车继续。你输完,回车,它立刻接着干。

这些不是未来功能,是当前版本已支持的实打实能力。文档里叫“上下文感知”和“人工接管协议”,但对你来说,就是多打几个字,少操一份心。

3. 实测效果:它刷得比我“专业”,而且不累

光说不练假把式。我用它连续跑了3天,对比我手动刷的效果,整理了这张真实数据表:

维度手动刷(我)Open-AutoGLM AI助手提升
单次获取有效内容数(10分钟内)平均3.2条(大量重复、低质)平均7.8条(精准匹配关键词+兴趣标签)+144%
发现新优质博主数量(24小时)1-2个9个(含3个小众但内容极佳的)+800%
手指疲劳感明显酸胀,需休息零操作,纯围观——
内容多样性(主题覆盖)集中在2-3个领域覆盖宠物、科技、手工、旅行、美食5大类+150%
中断恢复能力切App后需重新找入口自动识别当前界面,续接任务(如“继续刷第6条”)唯一性能力

最让我惊讶的是“内容多样性”。
因为AI不是随机滑动,而是每刷一条,都会分析视频标题、封面文字、评论热词,动态调整下一条的搜索权重。比如它发现你对“柯基”视频互动率高,下一刷就会倾向推荐“柯基训练”“柯基幼犬”等长尾词,而不是泛泛的“宠物”。

这已经不是“自动化”,而是“个性化信息流生成”。

4. 为什么它能做到?抛开术语,说人话的技术真相

网上很多文章一上来就讲“多模态对齐”“思维链规划”,听着高大上,但对想动手的人毫无帮助。
我用三天跑通全流程后,总结出它真正厉害的三个底层设计,全是为“易用性”服务的:

4.1 它不“猜”界面,而是“读”界面

传统UI自动化(如Appium)靠坐标或元素ID定位,换一个App就全废。
Open-AutoGLM用的是视觉语言模型(VLM):它把手机截图当成一张“照片”,用大模型直接“读图”——

  • 看到红色圆圈+白色加号,它知道这是“关注”按钮
  • 看到顶部搜索栏里有“抖音号:dycwo11nt61d”,它知道这是你要找的博主
  • 看到视频右下角有“点赞”“评论”“分享”图标,它知道这是播放中界面

这意味着:你不用学XPath,不用抓包,不用研究App内部结构。只要界面上有文字、图标、颜色,它就能理解。

4.2 它不“硬编码”流程,而是“动态规划”动作

老式自动化脚本是线性的:“第一步点A,第二步滑B,第三步输C”。一旦中间步骤失败(比如按钮没加载出来),整个流程就崩。
Open-AutoGLM的规划器是基于意图的动态决策

  • 你给它指令:“打开小红书搜美食”
  • 它先看当前屏幕:如果是桌面,就规划“找小红书图标→点击”
  • 如果已经是小红书首页,就规划“找搜索框→点击→输入‘美食’→点搜索”
  • 如果搜索页没结果,它会自动尝试“换关键词:本地美食”或“点‘综合’切换排序”

这就是为什么它鲁棒性强——它像人一样,会观察、会判断、会应变,而不是死守脚本。

4.3 它不“孤立工作”,而是“自带安全阀”

最担心的一定是:“万一它乱点怎么办?”
框架内置了三层保险:

  • 敏感操作确认:所有涉及支付、删除、权限授予的操作,必须你手动确认才执行
  • 动作幅度限制:默认单次滑动距离、点击间隔都设了安全阈值,杜绝误触
  • 超时熔断:某个动作执行超过15秒无响应,自动终止并报错,绝不死循环

我试过故意拔掉USB线,它会在3秒内检测到ADB断连,停止所有操作,并在终端清晰提示:[ERROR] ADB disconnected. Task paused.

5. 你能用它做什么?远不止“刷视频”

现在,你手里握着的不是一个“刷视频工具”,而是一个通用手机自动化平台。只要任务能用“看+想+动”描述,它就能干。我整理了几个零门槛就能上手的场景:

  • 信息收集型
    "每天上午9点,打开知乎,搜索‘AI行业动态’,把前5条高赞回答的标题和摘要存到Notion"
    (配合定时任务工具,全自动日报生成)

  • 生活辅助型
    "帮我订今天下午3点的美甲,预算300以内,要求离公司近,有好评"
    (它会自动打开大众点评→筛选→打电话预约→把预约码发你微信)

  • 学习提效型
    "打开B站,搜索‘PyTorch入门’,只看播放量>50万、时长<30分钟的视频,把前3个的标题、UP主、链接整理成表格"
    (告别手动复制粘贴)

  • 创意实验型
    "打开剪映,导入相册里最新的5张风景照,用‘胶片’滤镜+‘轻快’BGM生成15秒短视频,保存到‘AI作品’文件夹"
    (把复杂创作变成一句话指令)

这些都不是设想。我在文档的examples/目录里,找到了对应的Python脚本模板,改几行参数就能跑。

6. 总结:它不是取代你,而是把时间还给你

写这篇文章时,我让AI助手在后台运行着:它正按我的指令,“刷10条关于‘开源大模型’的深度解读视频,并把UP主名字和视频核心观点整理成Markdown发我邮箱”。

而我,终于能专注地敲下这些字,不用再为“刷什么”分心,不用再为“点哪里”纠结,不用再为“错过好内容”焦虑。

Open-AutoGLM 的真正价值,从来不是炫技般的自动化,而是把人从重复性交互劳动中解放出来
它不追求100%替代人类操作,而是精准承接那些“我知道该怎么做,但不想动手”的瞬间——
就像汽车不取代走路,但它让你能抵达更远的地方。

所以,别再问“AI会不会抢走我的工作”。
先问问自己:过去一周,有多少时间花在了“机械滑动”“反复搜索”“手动整理”上?
那些时间,现在可以拿回来,去做只有人类才能做的事:思考、创造、连接、感受。

你准备好,让AI替你刷视频了吗?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 20:20:32

Cogito v2 70B:AI自我进化推理大模型新体验

Cogito v2 70B&#xff1a;AI自我进化推理大模型新体验 【免费下载链接】cogito-v2-preview-llama-70B 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/cogito-v2-preview-llama-70B 导语&#xff1a;DeepCogito推出Cogito v2 70B大模型&#xff0c;通过创新的混…

作者头像 李华
网站建设 2026/4/3 23:50:15

PDF解析错误故障排除指南:从警告消除到高效解决方案

PDF解析错误故障排除指南&#xff1a;从警告消除到高效解决方案 【免费下载链接】MinerU A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具&#xff0c;将PDF转换成Markdown和JSON格式。 项目地址: https://gitcode.com/OpenDataLab/…

作者头像 李华
网站建设 2026/4/11 22:52:18

Muzic全链路企业级部署指南:音乐AI生成系统的核心技术与实施路径

Muzic全链路企业级部署指南&#xff1a;音乐AI生成系统的核心技术与实施路径 【免费下载链接】muzic 这是一个微软研究院开发的音乐生成AI项目。适合对音乐、音频处理以及AI应用感兴趣的开发者、学生和研究者。特点是使用深度学习技术生成音乐&#xff0c;具有较高的创作质量和…

作者头像 李华
网站建设 2026/4/10 8:03:11

AHN技术:Qwen2.5长文本处理效率终极提升

AHN技术&#xff1a;Qwen2.5长文本处理效率终极提升 【免费下载链接】AHN-DN-for-Qwen-2.5-Instruct-14B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/AHN-DN-for-Qwen-2.5-Instruct-14B 导语&#xff1a;字节跳动最新发布的AHN&#xff08;Artificia…

作者头像 李华
网站建设 2026/4/14 11:32:47

革新性开源SOAR平台实战入门指南

革新性开源SOAR平台实战入门指南 【免费下载链接】tracecat &#x1f63c; The open source alternative to Tines / Splunk SOAR. Build AI-assisted workflows, orchestrate alerts, and close cases fast. 项目地址: https://gitcode.com/GitHub_Trending/tr/tracecat …

作者头像 李华