news 2026/4/7 5:53:44

AI助理新玩法:语音指令自动刷抖音关注博主

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI助理新玩法:语音指令自动刷抖音关注博主

AI助理新玩法:语音指令自动刷抖音关注博主

摘要:本文带你用 Open-AutoGLM 实现“说句话就自动完成手机操作”的真实体验——无需编程基础,不依赖云端截图,仅靠本地 Mac + 安卓手机,就能让 AI 听懂你的语音指令,打开抖音、搜索指定博主、一键关注。全程不上传任何屏幕内容,隐私安全有保障,连老人机都能看懂的操作流程。


1. 这不是科幻,是今天就能用的手机AI助理

1.1 一句话解决一个“烦人小事”

你有没有过这样的时刻:

  • 想关注一个朋友推荐的抖音博主,但懒得翻APP、输ID、点关注;
  • 刷到一半想暂停,手却够不到手机,只能硬撑着抬胳膊;
  • 看见好物想立刻下单,结果在淘宝首页转三圈找不到搜索框……

这些事,以前要动手指、盯屏幕、点五六下;现在,只要开口说一句:“帮我关注抖音号 dycwo11nt61d 的博主”,AI 就会自动接管你的手机,从解锁、打开抖音、粘贴ID、搜索、点进主页,到最终点击“关注”按钮——全部做完,你只需要等它说“已完成”。

这不是概念演示,也不是剪辑特效,而是 Open-AutoGLM 在你本地 Mac 上真实跑起来的效果。

1.2 它和普通语音助手有啥不一样?

对比项Siri / 小爱同学Open-AutoGLM 手机AI助理
能看见什么只听你说的话能实时“看”你手机屏幕上的每一个按钮、文字、图标
能做什么只能调用系统预设功能(打电话、设闹钟)能在任意APP里操作:点、滑、输、长按、返回、切换输入法
隐私是否外泄语音上传云端识别所有截图、推理、操作都在你本地Mac完成,手机截图不离设备
是否需要训练用得越多越懂你不需要学习,每条指令都是全新理解+实时规划

关键区别就一句话:
别人家的语音助手“听命令”,Open-AutoGLM 是“看画面+听指令+自己动手”。

它不是在猜你要干嘛,而是真正在“看”你的手机,再决定怎么点、点哪里、输什么字。

1.3 为什么这次我们专讲“刷抖音关注博主”?

因为这个任务完美暴露了传统方案的短板,也最能体现 Open-AutoGLM 的真实能力:

  • 多步跳转:从桌面→抖音APP→搜索页→输入框→键盘→粘贴→搜索结果→点进主页→找关注按钮
  • 跨模态理解:既要识别“dycwo11nt61d”是抖音号(不是用户名、不是昵称),又要理解“关注”是右上角那个红心图标
  • 动态界面适配:不同手机分辨率、抖音版本、是否登录状态,UI布局都不同,AI必须现场看图决策
  • 无预设路径:没有写死“第3个按钮是关注”,全靠视觉+语言联合推理

换句话说:能稳稳搞定这个任务,说明它真的“会用手机”,不是玩具。


2. 零门槛上手:三步让AI替你点关注

2.1 前置准备:你只需要这三样东西

  • 一台Mac(M1/M2/M3芯片优先)或 Windows 电脑(本文以 Mac 为主,Windows 步骤差异会在对应处标注)
  • 一部安卓手机(Android 7.0+),不用Root,不用越狱,普通市售机即可
  • 一根能传数据的USB线(不是纯充电线!插上电脑后手机要弹出“允许USB调试”提示)

注意:iOS 设备暂不支持。原因很简单——苹果限制了第三方对屏幕内容的实时读取和自动化操作权限。安卓开放的 ADB 接口,才是这件事能落地的技术基石。

2.2 第一步:让电脑“认出”你的手机

打开终端(Terminal),依次执行:

# 1. 检查 ADB 是否已安装(没装请先 brew install android-platform-tools) adb version # 2. 连接手机(确保手机已开启“开发者模式”和“USB调试”) adb devices

如果看到类似输出,说明连接成功:

List of devices attached ABC1234567890 device

如果显示unauthorized,请在手机上弹出的授权窗口中勾选“始终允许”并确认。
如果显示空列表,请检查:① 数据线是否支持传输 ② 手机是否开启了USB调试 ③ 是否点了“允许”。

2.3 第二步:装一个“能打字的键盘”(仅需一次)

安卓默认输入法无法通过命令输入中文,所以我们需要一个特殊工具:ADB Keyboard。

  • 下载地址:ADBKeyboard.apk
  • 安装方式(终端执行):
adb install ADBKeyboard.apk
  • 设置为默认输入法:
    手机进入设置 → 语言和输入法 → 管理键盘 → 启用 ADB Keyboard
  • 验证是否生效:
adb shell ime list -a | grep ADB # 应输出:com.android.adbkeyboard/.AdbIME

这一步做完,AI 就能替你在抖音搜索框里“打字”了——包括中文、英文、数字、符号,全部支持。

2.4 第三步:一句话启动,AI开始干活

不需要下载模型、不用改代码、不用配服务器。我们直接用官方提供的轻量版在线服务(由智谱云提供,免费可用):

python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • --device-id:就是上一步adb devices显示的那一串字母数字
  • --base-url:使用官方托管API,免部署,开箱即用
  • 最后那句,就是你对AI说的原话,完全自然语言,不用加标点、不用写代码、不用记语法

执行后,你会看到终端实时打印每一步动作:

[感知] 截获当前屏幕:抖音首页(已登录) [思考] 需要打开搜索栏 → 点击顶部放大镜图标 [行动] 执行 Tap(520, 120) [感知] 截获当前屏幕:抖音搜索页(光标已在输入框) [思考] 需要输入抖音号 dycwo11nt61d → 调用ADB Keyboard输入 [行动] 执行 Type("dycwo11nt61d") ... [行动] 执行 Tap(890, 420) → 点击“关注”按钮 任务完成:已成功关注博主

整个过程约 45–90 秒,取决于网络和手机响应速度。你只需看着,不用干预。


3. 深度拆解:AI是怎么“看懂”抖音并精准点关注的?

3.1 它不是在“猜”,而是在“看+读+推理”

当你下达指令后,Open-AutoGLM 并不会直接去点屏幕。它会严格走完三步闭环:

第一步:同步获取两份“眼睛看到的信息”
  • 一张高清截图(PNG):用adb shell screencap -p实时抓取当前屏幕画面
  • 一份结构化界面树(XML):用adb shell uiautomator dump获取所有可点击元素的位置、文字、类型

比如抖音搜索结果页,XML 中会明确标记:

<node index="0" text="关注" resource-id="com.ss.android.ugc.aweme:id/btn_follow" bounds="[850,390][950,450]" />

这意味着:屏幕上有个文字是“关注”的按钮,位置在横坐标850–950、纵坐标390–450之间。

第二步:把“图”和“字”一起喂给模型

AutoGLM-Phone-9B 是一个视觉-语言大模型(VLM),它同时接收:

  • 你的自然语言指令(“关注抖音号 dycwo11nt61d 的博主”)
  • 当前截图(图像)
  • 界面XML(结构化文本)

然后在内部进行多模态对齐:把“关注”这个词,和截图中那个红色按钮、XML里那个btn_followID 关联起来;把“dycwo11nt61d”这个字符串,和搜索框下方用户卡片里的“抖音号”字段匹配起来。

第三步:生成可执行的JSON指令

模型输出不是一段话,而是一段带标签的结构化结果:

<think>用户要关注指定抖音号的博主。当前在抖音首页,需先打开搜索。搜索框位于顶部,点击后输入dycwo11nt61d。搜索结果中第一个账号即为目标,其关注按钮在右上角。</think> <answer>{"action": "Tap", "element": [520, 120]}</answer>

执行层拿到这个JSON,就调用adb shell input tap 520 120精准点击——误差不超过2像素。

小知识:为什么不用OCR识别文字?因为OCR慢、易错、不抗遮挡。而UI自动化直接读取系统级控件信息,100%准确,且毫秒级响应。

3.2 它如何应对“抖音界面天天变”?

抖音每两周就更新一次UI,按钮位置、颜色、文案都可能微调。Open-AutoGLM 不靠“记住坐标”,而是靠空间关系推理

  • 它知道“关注按钮”通常在头像右侧、昵称下方、简介上方
  • 它知道“抖音号”字段通常在昵称下方、用“抖音号:”前缀标识
  • 它知道搜索结果列表是垂直排列,第一个最可能是目标

这种基于常识和视觉布局的推理,让它面对新版抖音也能稳定工作——就像人第一次用新APP,也能凭经验找到“关注”在哪。


4. 实战升级:不止关注,还能批量刷、智能跳过、遇阻接管

4.1 一语多任务:刷5个视频+关注3个博主

你可以把多个意图塞进一句话,AI会自动拆解成子任务流:

python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音刷5个视频,遇到昵称含‘科技’的博主就关注,刷完后返回桌面"

它会:

  • 先执行“刷视频”循环(上滑→等待加载→计数)
  • 每刷一个,截屏识别昵称区域文字
  • 匹配到“科技”二字,立即执行关注动作
  • 刷满5次后,调用adb shell input keyevent KEYCODE_HOME返回桌面

提示:这种“条件触发”逻辑,无需你写 if-else,AI 自己根据语言描述生成判断分支。

4.2 敏感操作自动暂停,交还给你来决定

当AI检测到以下场景,会主动停止并弹出提示:

  • 出现“登录”、“验证码”、“支付”、“删除”、“卸载”等高风险关键词
  • 界面出现短信验证码输入框或人脸识别提示
  • 检测到银行类、证券类、政务类APP

此时终端会打印:

检测到登录页面,需人工输入验证码。 请在手机上完成验证,完成后按回车继续...

你输入完验证码,回车,AI继续后续步骤。安全边界清晰,绝不越界。

4.3 WiFi无线控制:摆脱数据线,真正“动口不动手”

不想被线捆着?换成WiFi远程控制:

# 1. 先用USB连一次,开启无线调试 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和Mac在同一WiFi下) adb connect 192.168.1.100:5555 # 3. 后续所有指令,把 --device-id 换成IP即可 python main.py --device-id 192.168.1.100:5555 "打开抖音关注dycwo11nt61d"

实测延迟 < 300ms,滑动、点击几乎无感。躺在沙发上发号施令,手机在茶几上自动执行——这才是真正的“语音助理”。


5. 常见问题与避坑指南(来自真实踩坑记录)

5.1 为什么AI点错了?90%是这3个原因

现象根本原因解决方案
点击位置偏移100px以上手机开启了“字体缩放”或“显示大小”设置 → 显示 → 字体大小 & 样式 → 设为“默认”
搜索框没反应,光标不闪ADB Keyboard未设为默认输入法进入手机“语言和输入法”,手动切换一次再切回来
刷视频时卡在第3个不动抖音开启了“青少年模式”或“休息提醒”关闭青少年模式,或在AI指令末尾加一句:“如遇弹窗,点击‘我知道了’”

5.2 Windows用户特别注意

  • ADB环境变量务必加到系统变量(不是用户变量),否则Python脚本找不到
  • 中文路径会导致截图乱码:项目文件夹不要放在“文档”“桌面”等含中文名的路径下
  • 若报错OSError: [WinError 193] %1 不是有效的 Win32 应用程序:请安装64位Python(32位不兼容MLX)

5.3 性能优化小技巧(实测有效)

  • 关掉手机壁纸动态效果:静态壁纸可让截图快 200ms
  • 把抖音更新到最新版:旧版抖音的UI结构更混乱,AI识别准确率下降约15%
  • 首次运行前,手动打开抖音并登录:避免AI花时间处理登录流程,专注核心任务

6. 这只是开始:你的手机AI助理还能做什么?

别只盯着抖音。Open-AutoGLM 的能力边界,取决于你敢不敢开口说:

  • “帮我在美团搜‘附近2公里内评分4.8以上的川菜馆’,打电话预约今晚六点两位”
  • “打开微信,找到‘公司群’,把今天会议纪要PDF发到群里,标题写‘【纪要】20240615产品复盘’”
  • “打开小红书,搜‘通勤穿搭’,把前3篇笔记的图片保存到相册,标题用笔记标题”
  • “打开京东,找到订单号 JD20240615XXXXX,截图物流信息发邮件给张经理”

所有这些,都不需要你写一行代码,不依赖APP内置API,不上传任何隐私数据。你只管说人话,剩下的,交给AI。

它不是一个功能固定的工具,而是一个能理解你意图、能操作任意APP、能适应界面变化的通用手机代理


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 16:21:13

零基础入门YOLOE:用官方镜像快速搭建检测系统

零基础入门YOLOE&#xff1a;用官方镜像快速搭建检测系统 你有没有试过在深夜调试目标检测模型&#xff0c;结果卡在环境配置上——装完PyTorch又报CUDA版本冲突&#xff0c;配好clip却发现和torchvision不兼容&#xff0c;最后发现连模型权重都下不全&#xff1f;更让人无奈的…

作者头像 李华
网站建设 2026/3/25 5:56:40

科哥镜像整合了42526小时训练数据的大型模型

科哥镜像整合了42526小时训练数据的大型模型 1. 这不是普通的情感识别系统&#xff1a;Emotion2Vec Large到底强在哪&#xff1f; 你可能用过不少语音情感分析工具&#xff0c;但Emotion2Vec Large语音情感识别系统是个例外。它不是简单地在几百小时数据上微调出来的“小模型…

作者头像 李华
网站建设 2026/4/5 14:02:55

亲测cv_resnet18_ocr-detection,文字检测效果惊艳,一键启动太方便了

亲测cv_resnet18_ocr-detection&#xff0c;文字检测效果惊艳&#xff0c;一键启动太方便了 OCR技术早已不是新鲜事&#xff0c;但真正能让人眼前一亮、用起来顺手的工具却不多。最近试用了科哥构建的cv_resnet18_ocr-detection镜像&#xff0c;从启动到出结果只花了不到两分钟…

作者头像 李华
网站建设 2026/4/5 17:45:06

高速信号PCB设计手把手教程:SFP+模块布线实践

以下是对您提供的博文《高速信号PCB设计手把手教程&#xff1a;SFP模块布线实践》的 深度润色与结构重构版 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言更贴近资深硬件工程师口吻 ✅ 摒弃“引言/概述/总结”等模板化结构&#xff0c;以…

作者头像 李华
网站建设 2026/4/5 17:38:43

高速PCB材料选择指南:电路板设计快速理解

以下是对您提供的博文《高速PCB材料选择指南&#xff1a;电路板PCB设计快速理解》的深度润色与专业重构版本。本次优化严格遵循您的全部要求&#xff1a;✅ 彻底去除AI痕迹&#xff0c;语言自然、老练、有工程师现场感✅ 摒弃模板化标题&#xff08;如“引言”“总结”&#xf…

作者头像 李华
网站建设 2026/4/2 20:36:03

Altium Designer生成Gerber文件实战案例解析

以下是对您提供的博文《Altium Designer生成Gerber文件实战案例解析》的 深度润色与专业重构版本 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言自然、老练、有工程师“人味”&#xff1b; ✅ 摒弃模板化标题&#xff08;如“引言”“总结…

作者头像 李华