news 2026/3/14 5:51:46

复刻豆包手机?,让 AI 操作手机:AppAgent 原理与实战,基于视觉大模型实现“自动化刷视频”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
复刻豆包手机?,让 AI 操作手机:AppAgent 原理与实战,基于视觉大模型实现“自动化刷视频”

📱 前言:Appium 已死?视觉 Agent 当立!

前段时间,字节发布的“豆包手机”和荣耀的“任意门”火了,核心卖点都是“AI 懂你的屏幕,能帮你操作手机”

作为开发者,你可能会问:“这不就是自动化脚本吗?”
错!大错特错!

传统的脚本(Appium/Airtest)是“盲人摸象”,它们依赖底层的 XML 控件 ID。一旦 APP 改版,ID 变了,脚本直接报废。
AppAgent是“睁眼看世界”。它利用GPT-4oQwen-VL这种视觉大模型,直接**“看”手机截屏,像人类一样通过“视觉感知”**来决定点哪里。

今天,我就带大家用开源的AppAgent框架,手搓一个简易版“豆包手机”,实现**“由 AI 自动刷抖音,看到喜欢的猫咪视频就自动点赞”**的黑科技!


🧠 核心原理:AI 是怎么“玩手机”的?

AppAgent 的工作流程非常符合人类的直觉,分为三个阶段:感知(See) -> 思考(Think) -> 行动(Act)

1. 视觉感知 (Visual Perception)

AI 截取当前手机屏幕。为了让大模型能准确描述位置,AppAgent 会在屏幕上覆盖一层**“透明的数字标号”**(或者直接划分网格)。
比如,“点赞按钮”上可能覆盖了数字[25]

2. 决策推理 (Reasoning)

我们将截图和标号发给 GPT-4o,并附上 Prompt:

“你现在的任务是刷视频。如果视频里有猫,就点击点赞按钮(标号 25);否则,执行上滑操作。”

3. 执行动作 (Action)

大模型返回决策:Tap(25)Swipe(Up)
AppAgent 将其翻译成adb shell input tap x y命令,发送给安卓手机。

架构流程图(无括号版):

1. 实时截屏
2. 覆盖数字标记
3. 输入视觉模型
4. 思考并输出指令
5. 映射为坐标
6. 执行操作
Android 手机
屏幕截图
带标号的图片
GPT-4o / Qwen-VL
指令: 点击标号 5
ADB 命令

🛠️ 实战环节:环境搭建

1. 硬件准备
  • 一台 Android 手机(开启 USB 调试)。
  • 电脑(Windows/Mac 均可,装好 Python 和 ADB)。
2. 克隆 AppAgent 仓库

AppAgent 是腾讯开源的项目,我们直接站在巨人的肩膀上。

gitclone https://github.com/mnotgod96/AppAgentcdAppAgent pipinstall-r requirements.txt
3. 配置模型 (config.yaml)

你需要一个能看懂图片的“大脑”。推荐使用GPT-4o(最强)或Qwen-VL-Max(国产性价比)。

OPENAI_API_KEY:"sk-xxxx"OPENAI_API_MODEL:"gpt-4o"

⚔️ 黑科技演示:训练 AI 玩 抖音

AppAgent 有个非常牛逼的**“探索阶段 (Exploration Phase)”
它不需要你手写规则,你可以让 AI 自己去 APP 里乱点一通,它会
自己总结**出:“哦,原来点这里是评论,点那里是转发。”

Step 1: 探索模式 (Learn)

运行脚本,选择“探索模式”。

python learn.py --app tiktok --mode exploration

AI 会自动打开抖音,尝试点击各个图标,并记录下每个图标的功能文档。

  • 点击“爱心” -> 发现数字变了 -> 记录:这是点赞。
  • 上滑屏幕 -> 视频变了 -> 记录:这是切换视频。
Step 2: 部署模式 (Act)

教会了徒弟,现在让它自己干活。
我们编写一个简单的任务 Prompt:

User Prompt:

“不断地上滑刷视频。仔细观察视频内容,如果视频中出现了‘猫’或者‘狗’,就给我点个赞,然后继续刷。如果是广告,直接快速划走。”

运行代码:

python run_agent.py --app tiktok --task"Auto swipe and like cats"

见证奇迹的时刻:
你会看到手机屏幕自己在动!

  1. 屏幕出现美女跳舞 -> AI 判断“无猫” -> 执行Swipe Up
  2. 屏幕出现一只布偶猫 -> AI 识别成功 -> 执行Tap(Like_Icon)-> 执行Swipe Up
  3. 屏幕出现广告 -> AI 识别文本“广告” -> 执行Swipe Up

💻 核心代码剖析 (简化版)

为了让大家理解这玩意儿是怎么跑起来的,我把核心的 Python 逻辑抽取出来:

fromapp_agentimportAppAgentfromandroid_envimportAndroidDevice# 1. 连接手机device=AndroidDevice(serial="emulator-5554")# 2. 初始化视觉 Agentagent=AppAgent(model="gpt-4o",device=device)# 3. 任务循环task="刷视频,看到猫就点赞"whileTrue:# 抓屏 + 视觉识别ui_elements=device.capture_and_label()# AI 思考action=agent.think(screenshot=ui_elements,instruction=task)# action 返回: {"action_type": "click", "element_id": 5}# 执行ifaction["action_type"]=="click":device.click(action["element_id"])elifaction["action_type"]=="swipe":device.swipe("up")print(f"🤖 AI 执行了:{action}")

🔮 总结与展望

看到这里,你可能觉得这就是个“高级按键精灵”。
但在我看来,AppAgent 代表了操作系统交互的未来。

想象一下:

  • 老人模式:老人对着手机说“给孙子发个红包”,AI 自动操作微信完成转账。
  • 跨 App 协作:说一句“帮我把刚才大众点评的餐厅地址发给李总,并预约明晚的滴滴”,AI 自动在三个 App 之间跳转操作。

这就是“豆包手机”想做的事,也是**On-Device AI(端侧智能)**的终极形态。

别再死磕 XML 和 XPath 了,给你的爬虫和脚本装上一双“眼睛”吧!


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/13 14:13:44

2025降噪耳机排行榜前十名:漫步者领衔,国产耳机以高性价比破局

科技与性价比的完美结合,让降噪耳机从高端奢侈品成为了大众日常工具。无论是在嘈杂的地铁上、喧闹的办公室中,还是长途飞行的旅程中,一款优秀的降噪耳机都能为你创造一片宁静的听觉空间。2025年,中国耳机品牌凭借卓越的技术实力和…

作者头像 李华
网站建设 2026/3/13 4:09:56

GLM-4.5开源大模型:智能体开发的新时代引擎

GLM-4.5开源大模型:智能体开发的新时代引擎 【免费下载链接】GLM-4.5-Air-Base 项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-Base 在人工智能技术飞速发展的今天,智谱AI正式推出GLM-4.5系列开源大模型,这款专为智能体应用…

作者头像 李华
网站建设 2026/3/5 3:15:30

终极智能垃圾桶制作指南:用Johnny-Five轻松实现自动感应开盖

想要打造一个能自动感应开盖的智能垃圾桶吗?只需简单的JavaScript编程和基础硬件连接,你就能拥有这款提升生活品质的智能设备。本文将手把手教你如何利用Johnny-Five框架,结合红外传感器和舵机,快速构建一个完全自动化的智能垃圾桶…

作者头像 李华
网站建设 2026/3/5 2:51:08

ComfyUI-Frame-Interpolation:5个步骤让视频动画更流畅

ComfyUI-Frame-Interpolation:5个步骤让视频动画更流畅 【免费下载链接】ComfyUI-Frame-Interpolation A custom node set for Video Frame Interpolation in ComfyUI. 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Frame-Interpolation ComfyUI-Fr…

作者头像 李华
网站建设 2026/3/12 17:25:30

如何5分钟搭建个人音乐中心:小爱音箱终极玩法指南

如何5分钟搭建个人音乐中心:小爱音箱终极玩法指南 【免费下载链接】xiaomusic 使用小爱同学播放音乐,音乐使用 yt-dlp 下载。 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaomusic 还在为音乐会员烦恼?想不想让小爱音箱变成…

作者头像 李华
网站建设 2026/3/14 3:33:05

​​​​​​​拼多多API揭秘:如何在低价竞争中突出重围?

导语: 在拼多多这个以“低价”为核心竞争力的平台上,商家间的价格战异常激烈。单纯的低价策略已难以保证利润和可持续性。本文将深入探讨如何巧妙利用拼多多的开放API接口,在低价的红海中找到差异化竞争点,实现突围。 一、 低价困…

作者头像 李华