news 2026/2/9 0:28:00

亲测Open-AutoGLM,让AI帮你自动刷抖音关注博主

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM,让AI帮你自动刷抖音关注博主

亲测Open-AutoGLM,让AI帮你自动刷抖音关注博主

本文基于智谱AI开源项目 Open-AutoGLM 的实操经验,全程不写一行模型代码、不调参、不部署服务器,只用一台电脑+一部安卓手机,15分钟内跑通“打开抖音→搜索指定博主→点击主页→完成关注”全流程。所有步骤均经本人真机验证(小米13,Android 14),附避坑指南和效果实录。

1. 这不是概念演示,是能立刻上手的手机AI助理

你有没有过这样的时刻:

  • 想批量关注一批优质抖音博主,但手动点开、搜索、进主页、点关注,重复操作20次后手指发麻;
  • 看到小红书种草的美食探店,想立刻在美团搜同款,却要来回切换App、反复输入关键词;
  • 朋友发来一个微信链接,你得先复制、再切回微信、再粘贴、再点开——三步操作卡在第二步忘了粘贴。

这些不是“懒”,而是人机交互效率的断层

Open-AutoGLM 就是来填平这个断层的。它不是另一个“AI写文案”工具,而是一个真正能看懂你手机屏幕、听懂你自然语言、替你动手点击滑动的AI助理。

我用它完成了标题里的任务:
手机连电脑后,终端里输入一行命令
AI自动识别抖音首页界面 → 点击搜索框 → 输入“dycwo11nt61d” → 点击搜索结果 → 进入博主主页 → 定位“关注”按钮 → 点击完成
全程无需我碰手机,耗时47秒,成功率100%(连续测试5次)

关键在于:你不需要懂ADB、不需会Python、不需部署大模型。它把所有技术细节封装成清晰的命令行接口,小白也能当天上手。

2. 准备工作:三步搞定硬件与环境(比装微信还简单)

别被“ADB”“vLLM”吓退——实际只需做三件事,全部有傻瓜式指引。

2.1 手机端:开启开发者权限(3分钟)

这是唯一需要你在手机上操作的步骤,其他全在电脑端:

  1. 打开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
  2. 启用USB调试:返回设置 → 系统与更新 → 开发者选项 → 打开“USB调试”(务必勾选!否则后续全失败)
  3. 安装ADB Keyboard(关键!)
    • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases
    • 安装APK后,进入手机“设置 → 语言与输入法 → 当前输入法” → 切换为“ADB Keyboard”
    • 为什么必须装?ADB原生命令不支持中文输入,这个工具通过广播发送UTF-8文本,让你的“dycwo11nt61d”能准确输入,不乱码。

验证是否成功:用USB线连接手机和电脑 → 打开命令行 → 输入adb devices→ 若显示一串设备ID(如8A2X000000000000 device),说明连接成功。若显示unauthorized,请在手机弹窗点“允许”。

2.2 电脑端:装好控制端(5分钟)

无需配置复杂环境,只要Python基础运行环境:

  • Windows/macOS均可(Linux同理)
  • Python 3.10+(官网下载安装包,勾选“Add Python to PATH”)
  • Git(用于克隆代码,官网下载安装即可)

执行以下命令(复制粘贴,逐行回车):

# 1. 克隆项目(约15秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(约1分钟,网络正常情况下) pip install -r requirements.txt pip install -e . # 3. 验证安装(看到版本号即成功) python -c "import phone_agent; print('OK')"

常见报错处理:

  • ModuleNotFoundError: No module named 'torch'→ 运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118(NVIDIA显卡)或pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu(无显卡)
  • ERROR: Could not find a version that satisfies...→ 升级pip:python -m pip install --upgrade pip

2.3 云服务接入:用现成API,零部署成本

Open-AutoGLM 的核心是视觉语言模型(AutoGLM-Phone-9B),但你不需要自己租GPU、部署模型、调vLLM。项目官方提供了公开可用的API服务(免费额度足够日常使用):

  • API地址http://autoglm-phone-api.zai.org/v1
  • 模型名autoglm-phone-9b
  • API KeyEMPTY(留空即可)

为什么推荐用云API?

  • 本地部署9B模型需24GB显存(RTX 4090勉强够),而云服务直接调用,笔记本也能跑;
  • 官方API已针对手机Agent场景优化,响应快、准确率高;
  • 后续可无缝切换为自建服务,架构完全兼容。

3. 实战:一条命令,让AI替你刷抖音关注博主

现在进入最激动人心的部分——执行任务。整个过程分三步:确认设备、构造指令、运行命令。

3.1 确认你的设备ID(10秒)

保持手机USB连接电脑,运行:

adb devices

输出类似:

List of devices attached 8A2X000000000000 device

其中8A2X000000000000就是你的设备ID(不同手机不同)。把它记下来,后面要用。

3.2 构造自然语言指令(关键!用对描述才准)

Open-AutoGLM 的强大,在于它理解人类语言,而非编程指令。但描述质量直接影响成功率。根据我的实测,最佳写法是:

“打开抖音,搜索抖音号为:dycwo11nt61d 的博主,进入他的主页,点击关注按钮。”

为什么这样写?

  • 明确App名:“抖音”而非“某短视频App”,避免AI误判为快手或B站;
  • 强调唯一标识:“抖音号为:xxx”比“搜索xxx”更精准(昵称可能重复,抖音号唯一);
  • 动作链完整:从“打开”→“搜索”→“进入主页”→“点击关注”,覆盖全流程;
  • ❌ 避免模糊词:“找一下那个博主”“点那个关注”——AI无法定位“那个”;
  • ❌ 避免缩写:“抖”“博”等非正式简称,AI可能识别为其他App。

3.3 执行命令(见证奇迹的时刻)

Open-AutoGLM目录下,运行以下命令(替换YOUR_DEVICE_ID为你自己的设备ID):

python main.py \ --device-id 8A2X000000000000 \ --base-url http://autoglm-phone-api.zai.org/v1 \ --model autoglm-phone-9b \ "打开抖音,搜索抖音号为:dycwo11nt61d 的博主,进入他的主页,点击关注按钮。"

你会看到实时输出(节选):

[Step 1] 截取屏幕... ✓ [Step 1] 当前应用:系统桌面 <think>用户想关注抖音博主,需先启动抖音App</think> <answer>do(action="Launch", app="抖音")</answer> [Step 2] 截取屏幕... ✓ [Step 2] 当前应用:抖音 <think>抖音已启动,首页有搜索框,需点击进入搜索</think> <answer>do(action="Tap", element=[500, 120])</answer> [Step 3] 截取屏幕... ✓ [Step 3] 当前应用:抖音(搜索页) <think>搜索框已激活,需输入抖音号dycwo11nt61d</think> <answer>do(action="Type", text="dycwo11nt61d")</answer> [Step 4] 截取屏幕... ✓ [Step 4] 当前应用:抖音(搜索结果页) <think>搜索结果中第一个是目标博主,需点击进入主页</think> <answer>do(action="Tap", element=[500, 450])</answer> [Step 5] 截取屏幕... ✓ [Step 5] 当前应用:抖音(博主主页) <think>主页顶部有“关注”按钮,坐标约在(500, 280),点击即可</think> <answer>do(action="Tap", element=[500, 280])</answer> [Step 6] 截取屏幕... ✓ [Step 6] 当前应用:抖音(博主主页) <think>关注按钮已变为“已关注”,任务完成</think> <answer>finish(message="已成功关注博主 dycwo11nt61d")</answer>

任务完成!手机屏幕上,你亲眼看到抖音自动完成所有操作,最后显示“已关注”。整个过程47秒,AI的思考过程(<think>)和动作(<answer>)实时打印,像有个技术专家在你耳边解说每一步。

实测技巧:

  • 首次运行建议加--verbose参数python main.py --verbose ...,查看详细日志,便于排查问题;
  • 如果某步卡住:检查手机是否锁屏(需保持亮屏)、USB调试是否被系统自动关闭(部分国产机有此bug);
  • 关注按钮坐标微调:不同机型UI略有差异,若第5步点击失败,可观察截图中“关注”按钮位置,手动调整element=[x,y]中的y值(±50像素内尝试)。

4. 超越抖音:这些高频场景,AI都能一键搞定

Open-AutoGLM 的能力远不止关注博主。它内置了50+主流App的包名映射(微信、淘宝、美团、小红书、B站等),且支持复杂多步任务。以下是我在真实场景中验证过的用法:

4.1 社交与内容获取(省时80%)

场景自然语言指令示例效果
批量加微信好友“打开微信,点击右上角‘+’,选择‘添加朋友’,输入手机号138****1234,点击‘添加到通讯录’,发送验证消息‘你好,我是XXX’”自动完成搜索、添加、发消息三步,耗时12秒
小红书种草采集“打开小红书,搜索‘上海咖啡馆’,下滑加载3次,截取前5个笔记的封面图和标题,保存到相册”AI自动滑动、识别图文、调用系统截图(需授权)
B站视频下载“打开B站,搜索‘大模型入门’,点击播放量最高的视频,长按分享按钮,选择‘下载’”精准定位UI元素,规避反爬机制

4.2 电商与生活服务(操作零失误)

场景自然语言指令示例效果
美团抢优惠券“打开美团,搜索‘海底捞’,进入最近门店主页,点击‘领券’,选择‘满300减50’券,点击‘立即领取’”在优惠券页面刷新时,AI能等待元素出现再操作,不手忙脚乱
12306抢票“打开12306,登录账号,查询今天北京到上海的G101次列车,选择二等座,提交订单”登录环节触发人工接管(Take_over),后续自动填充信息
淘宝比价“打开淘宝,搜索‘iPhone 15 Pro’,记录前3个商品的价格和店铺名,生成表格发到微信文件传输助手”AI识别价格数字,调用微信发送文本

4.3 效率与自动化(替代重复劳动)

场景自然语言指令示例效果
日报生成“打开钉钉,进入‘我的日报’,点击‘新建日报’,填写今日工作:1. 完成XX项目需求评审;2. 编写接口文档;3. 与设计同步UI稿。提交”自动填充文本,跳过所有点击流程
跨App信息同步“从微信聊天中复制‘会议时间:明天10点’,打开日历App,创建新事件,标题‘项目会议’,时间设为明天10:00,保存”AI自动识别微信中的文字并跨App粘贴(需开启无障碍权限)
手机清理“打开手机管家,点击‘垃圾清理’,等待扫描完成,点击‘全选’,点击‘清理’”解决老年人不会操作手机清理的痛点

所有场景均实测有效,关键在于:

  • 指令必须包含App名(如“微信”“美团”),不能只说“打开那个聊天软件”;
  • 动作动词用中文(“点击”“输入”“下滑”),不用英文(tap/type/swipe);
  • 涉及敏感操作(支付、登录)会自动暂停,提示你手动完成,保障安全。

5. 效果实录:AI操作的精准度与稳定性如何?

光说不练假把式。我用同一台小米13(Android 14),连续测试了10个不同任务,统计结果如下:

任务类型测试次数成功率平均耗时主要失败原因
抖音关注博主10100%47秒
微信添加好友10100%12秒
美团领优惠券1090%28秒2次因网络延迟导致页面未加载完,AI自动重试后成功
小红书搜索收藏10100%35秒
淘宝比价1080%52秒2次因商品列表动态加载,AI误判为“无结果”,调整指令为“等待3秒后下滑”后100%成功

直观效果对比(以抖音关注为例):

  • 人工操作:解锁手机 → 找到抖音图标 → 点击打开 → 等待加载 → 点击搜索框 → 输入“dycwo11nt61d” → 点击搜索 → 找到结果 → 点击进入 → 滑动到关注按钮 → 点击 → 等待反馈 → 共12个动作,耗时约90秒。
  • AI操作:USB连接 → 终端输入命令 → 观看屏幕自动执行 → 完成 → 共1个动作,耗时47秒,且手指完全不动

AI的“思考”有多准?
在第3步(输入抖音号)时,AI不仅点击了搜索框,还自动清空了搜索框原有内容(即使你没说“先清空”);在第5步(点击关注),它给出的坐标[500, 280]与我手动测量的按钮中心点误差仅±3像素,点击100%成功。这背后是视觉语言模型对UI元素的精准空间理解,而非简单坐标记忆。

6. 常见问题与避坑指南(血泪总结)

基于我踩过的所有坑,整理出最实用的解决方案:

6.1 连接类问题(占失败率70%)

现象根本原因一招解决
adb devices显示?????????? no permissionsUSB调试未授权,或驱动未安装重启手机开发者选项(关再开),或安装小米USB驱动
adb devices无输出USB线不支持数据传输(仅充电)换一根原装USB线,或使用带“数据传输”标识的线
WiFi连接失败(adb connect 192.168.x.x:5555手机与电脑不在同一WiFi,或防火墙拦截改用USB连接(更稳定),或关闭电脑防火墙

6.2 操作类问题(占失败率25%)

现象根本原因一招解决
AI点击位置偏差大(如该点搜索框却点了返回键)屏幕分辨率未被正确识别phone_agent/adb/screenshot.py中,将width=1080, height=2400改为你的手机真实分辨率(设置 → 显示 → 屏幕分辨率)
中文输入乱码或不显示ADB Keyboard未启用或未设为默认进入手机“设置 → 语言与输入法”,确认“ADB Keyboard”在列表中且被勾选
任务卡在某一步不动AI等待页面加载,但超时未触发在命令中添加--max-steps 20(默认100,减少步数可加快失败反馈)

6.3 安全与权限(占失败率5%)

现象根本原因一招解决
进入支付页面时黑屏,AI提示Take_overAndroid系统禁止敏感页面截图这是安全保护!AI会暂停并提示你手动操作,完成后按回车继续
微信登录时无法自动填密码微信键盘加密,ADB无法注入接受人工接管,这是合规设计,非Bug

终极建议:首次使用,务必从最简单的任务开始(如“打开抖音”),成功后再叠加步骤。就像学骑车,先学会平衡,再学转弯。

7. 总结:这不是玩具,而是下一代人机交互的起点

亲测Open-AutoGLM后,我最大的感受是:它第一次让我相信,AI Agent可以走出实验室,走进每个人的日常生活。

它没有炫技式的“多模态融合”术语,只有实实在在的:

  • 一句“打开抖音关注XXX”,手机就自动干活;
  • 一条“把微信里的会议时间同步到日历”,跨App信息流转不再需要手动复制;
  • 一次设置,永久解放双手——那些曾让我们烦躁的重复操作,终于有了终结者。

它的价值,不在于技术多前沿(虽然视觉语言模型确实硬核),而在于把前沿技术变成了谁都能用的工具。不需要你懂Prompt Engineering,不需要你调模型参数,甚至不需要你记住命令格式——你只需要像对朋友说话一样,告诉它你想做什么。

当然,它还有提升空间:比如对动画中UI元素的识别稍弱、对极小按钮的点击精度待优化。但这些不是缺陷,而是真实世界落地的必经之路。当一个项目能让小白在15分钟内完成“AI刷抖音”,它就已经赢了90%的竞品。

如果你也厌倦了在手机上重复点击,如果你想把每天1小时的机械操作,换成喝杯咖啡的时间——
现在,就是开始的最佳时机。

打开终端,输入那行命令,然后看着你的AI,第一次真正为你工作。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 1:24:12

Qwen2.5-0.5B如何调优?超参数设置实战指南

Qwen2.5-0.5B如何调优&#xff1f;超参数设置实战指南 1. 为什么是Qwen2.5-0.5B-Instruct&#xff1f; 你可能已经注意到&#xff0c;现在轻量级大模型圈里有个新面孔越来越活跃&#xff1a;Qwen2.5-0.5B-Instruct。它不是那种动辄几十GB显存才能跑的“巨无霸”&#xff0c;而…

作者头像 李华
网站建设 2026/2/6 8:51:55

流媒体画质增强工具:突破4K限制的完整解决方案

流媒体画质增强工具&#xff1a;突破4K限制的完整解决方案 【免费下载链接】netflix-4K-DDplus MicrosoftEdge(Chromium core) extension to play Netflix in 4K&#xff08;Restricted&#xff09;and DDplus audio 项目地址: https://gitcode.com/gh_mirrors/ne/netflix-4K…

作者头像 李华
网站建设 2026/2/6 12:05:15

QWEN-AUDIO保姆级部署指南:RTX 4090上一键启动情感TTS服务

QWEN-AUDIO保姆级部署指南&#xff1a;RTX 4090上一键启动情感TTS服务 1. 这不是普通语音合成&#xff0c;是能“动情”的声音引擎 你有没有试过让AI读一段文字&#xff0c;结果听起来像机器人在念说明书&#xff1f;语调平、节奏僵、情绪全无——再好的内容也瞬间失去感染力…

作者头像 李华
网站建设 2026/2/8 10:53:13

Clawdbot在医疗问答系统应用:Qwen3-32B结合医学知识图谱的代理部署案例

Clawdbot在医疗问答系统应用&#xff1a;Qwen3-32B结合医学知识图谱的代理部署案例 1. 为什么医疗问答需要更聪明的AI代理 你有没有试过用普通大模型查一个专业医学问题&#xff1f;比如“二甲双胍在肾功能不全患者中的剂量调整原则”——输入后&#xff0c;模型可能给出看似…

作者头像 李华
网站建设 2026/2/6 3:13:41

Netflix-4K-DDplus插件:解锁流媒体4K画质与高清音频的技术工具

Netflix-4K-DDplus插件&#xff1a;解锁流媒体4K画质与高清音频的技术工具 【免费下载链接】netflix-4K-DDplus MicrosoftEdge(Chromium core) extension to play Netflix in 4K&#xff08;Restricted&#xff09;and DDplus audio 项目地址: https://gitcode.com/gh_mirror…

作者头像 李华