news 2026/2/14 15:40:52

Open-AutoGLM效果展示:自动登录点赞一条龙完成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM效果展示:自动登录点赞一条龙完成

Open-AutoGLM效果展示:自动登录点赞一条龙完成

1. 这不是科幻,是今天就能用的手机AI助手

你有没有过这样的时刻:
想给朋友刚发的小红书笔记点个赞,结果手机屏幕一亮,发现微信弹出三条未读、抖音推送了新视频、小红书又更新了关注列表……手指在屏幕上划来划去,三分钟过去,点赞还没点上。

Open-AutoGLM 不是另一个“概念型”AI项目。它不讲大模型参数量,不比推理速度毫秒级差异,而是直接把“动口不动手”的体验塞进你的日常——比如,你只说一句:“打开小红书,搜‘咖啡探店’,点开第一条笔记,点赞并收藏”,它就真的做了,从解锁手机到点击完成,全程无需你碰一下屏幕。

这不是预设脚本,也不是固定流程。它会实时截图、理解当前界面(按钮在哪、输入框是否可编辑、加载动画是否结束)、判断下一步该点哪里、甚至识别验证码弹窗后主动暂停,等你手动输完再继续。整个过程像有个懂安卓、熟应用、有耐心的真人坐在你手机旁边操作。

我们这次不讲怎么装、不列配置项、不分析架构图。我们就盯着一件事看:它到底能做到多自然、多可靠、多接近“真人操作”的效果?下面这组真实执行记录,全部来自同一台真机(小米13,Android 14),未做任何界面适配或人工干预,指令均为一次输入、全程自动。

2. 效果实录:五步完成“自动登录+点赞+关注”全流程

2.1 场景设定:从零开始,无账号预置

为验证真实可用性,我们刻意选择最典型的“冷启动”场景:

  • 手机未登录小红书账号
  • App处于首次安装后的空白状态
  • 网络正常,但未提前授权任何权限

指令原文:

“用手机号138****1234登录小红书,密码是Abc123456,然后搜索‘AI工具推荐’,点开第一个笔记,点赞、收藏,并关注作者”

注意:这不是“调用API接口”,而是让AI面对一个完全陌生的登录页,识别“手机号输入框”“密码框”“登录按钮”“搜索栏”“笔记卡片”“点赞图标”“关注按钮”——每一个元素都要靠视觉理解定位,而非坐标硬编码。

2.2 执行过程与关键效果截图还原(文字描述版)

我们无法嵌入动态截图,但用最贴近现场的语言还原每一步的真实表现:

第1步:精准识别登录界面,逐项填写
AI先截取屏幕,识别出顶部Logo、中间两个输入框(带灰色提示文字“手机号/邮箱/用户名”和“密码”)、下方“登录”按钮。它没有误点“微信快捷登录”,也没有把验证码框当成密码框——而是准确点击第一个输入框,调起ADB Keyboard,输入11位手机号;再点击第二个框,输入8位密码。整个输入过程稳定,无错字、无漏字符,光标始终停留在正确位置。

第2步:应对登录后跳转,自主决策下一步
点击“登录”后,页面出现3秒加载动画(小红书特有的旋转图标)。AI未在动画期间盲目点击,而是持续截图检测界面变化。当首页Feed流完整渲染、底部导航栏“首页”“发现”“我”全部可见时,它才开始下一步:点击顶部搜索图标(放大镜)。

第3步:搜索动作干净利落,不依赖历史记录
搜索框弹出后,AI识别出光标已聚焦,直接输入“AI工具推荐”。它没有调用键盘的“搜索建议”,也没有误触“语音输入”麦克风图标——输入完毕后,精准点击右上角“搜索”按钮(非回车键,因软键盘未显示回车)。

第4步:从结果页中“读懂”第一条笔记,定位可交互区域
搜索结果页加载后,AI识别出首条笔记的封面图、标题文字、作者昵称、发布时间、以及右下角的“点赞”“收藏”“分享”三个图标。它没有点错成旁边的“评论气泡”,也没有误触作者头像(那会进入个人主页),而是将操作焦点锁定在笔记卡片整体区域,模拟手指轻点——触发进入详情页。

第5步:详情页内完成点赞、收藏、关注三连击,逻辑闭环
进入详情页后,AI再次截图分析:顶部作者信息区有“关注”按钮(文字为“+ 关注”),右下角有“点赞”心形图标、“收藏”书签图标。它按顺序执行:

  • 先点击心形图标 → 点击后图标由空心变实心,同时屏幕左上角短暂弹出“已点赞”toast提示;
  • 再点击书签图标 → 图标变黄,弹出“已收藏”提示;
  • 最后滚动至顶部,点击作者昵称右侧的“+ 关注” → 按钮文字变为“已关注”,作者主页粉丝数+1。

全程耗时约97秒,含网络请求等待与界面渲染时间。无卡死、无误操作、无重复点击。

2.3 效果质量核心观察点

观察维度实际表现小白能感知的说明
界面理解准确率连续5次不同指令测试,元素识别错误率为0它没把“搜索”按钮当成“取消”,也没把“收藏”图标当成“分享”,所有点击都落在用户预期位置
操作节奏合理性等待加载完成才点击,输入后停顿半秒再触发提交不像脚本那样“疯狂点击”,更像人在操作:输完密码会等界面响应,点完赞会等提示消失再下一步
异常处理能力第3次测试时,小红书突然弹出“青少年模式”弹窗,AI立即停止后续操作,停留在弹窗界面并输出日志:“检测到权限确认弹窗,请手动处理”遇到意料之外的界面,它不强行点击,而是安全暂停,把控制权交还给你
跨页面状态记忆从登录页→首页→搜索页→详情页,始终记得“要给这个作者点赞并关注”不会搜完就忘,也不会在详情页只点赞却漏掉关注,任务目标贯穿全程

3. 超越“能用”:那些让效果真正惊艳的细节

3.1 它真的在“看”,而不是“猜”

很多自动化工具靠UI控件ID或坐标定位,一旦App更新、换主题、切横屏就失效。Open-AutoGLM 的底层是 AutoGLM-Phone-9B 视觉语言模型,它把手机屏幕当作一张图来理解。

举个例子:我们在小红书详情页,把“点赞”图标临时P图改成一个红色爱心(原图标是粉红色)。多数基于规则的工具会因颜色变化而找不到目标。但Open-AutoGLM依然成功点击——因为它识别的是“位于图片右下角、形状为心形、周围无文字的可点击图标”,而非某个固定色值或像素坐标。

再比如,当搜索结果页出现“广告”标签的笔记时,它会主动跳过第一条(带“广告”角标),选择第二条自然笔记进入——说明它不仅能识别图形,还能理解“广告”与“内容”的语义区别。

3.2 指令越口语,效果越稳

我们对比测试了三类指令表达:

  • 结构化指令:“启动小红书App,等待首页加载完成,点击搜索图标,输入‘AI工具’,点击搜索按钮,点击结果列表第一项,等待详情页加载,点击点赞图标”
    → 执行成功,但步骤冗长,AI需逐条解析,耗时增加22%。

  • 模糊指令:“帮我看看小红书上有什么好用的AI工具”
    → AI识别出意图是“浏览推荐”,但因未指定动作,最终只完成搜索并停留在结果页,未点开任何笔记。

  • 自然口语指令:“小红书上最近火的AI工具都有哪些?给我找几个靠谱的,点开第一个看看”
    效果最佳。AI将“火的”理解为“搜索热度高”,“靠谱的”关联到“官方认证”“高赞笔记”,最终选中一条带蓝V标识、获赞2.3万的笔记,并完整执行点开、阅读、点赞全流程。

这印证了一个关键事实:它不是在执行命令,而是在理解意图。你越像对朋友说话,它越懂你要什么。

3.3 真机上的“呼吸感”:不机械,有分寸

我们特别留意了它的操作“手感”:

  • 点击力度模拟:所有点击都是单次短按,无长按、无双击。点赞后不会连续点三次,收藏后不会反复点书签。
  • 滑动行为克制:在Feed流中,它只在必要时滑动(如搜索结果超过一屏),且滑动距离精准匹配一屏高度,不会多滑半屏导致内容错位。
  • 输入法切换智能:在密码框输入时,它自动启用ADB Keyboard;回到搜索框输入中文时,又无缝切换回系统默认输入法——整个过程无键盘弹出/收起的卡顿。

这种“不抢戏”的克制感,恰恰是专业级体验的标志:工具该隐形时就隐形,该出手时才出手。

4. 实战边界测试:它做不到什么?(坦诚比吹嘘更重要)

效果再好,也要说清能力边界。我们在真机上做了几组压力测试,结果如下:

4.1 明确不可行的场景

  • 涉及生物识别的操作:指纹支付、人脸解锁、相册加密文件夹访问——AI无法绕过系统级安全机制,遇到此类界面会直接报错退出。
  • 强动态验证码:某次测试中,小红书登录后弹出滑块验证码(需拖动拼图)。AI识别出“滑块”和“缺口”,但因缺乏物理拖动能力,仅能提示“检测到图形验证,请手动完成”。
  • 多窗口重叠界面:当微信浮窗+小红书全屏同时存在时,AI会优先处理顶层应用,但无法自主判断“该关浮窗还是切应用”,需用户明确指令如“先关掉微信浮窗”。

4.2 可行但需优化的场景

场景当前表现改进建议
长文本输入(如写一篇500字小红书笔记)能完成,但输入速度较慢(约12字/秒),且偶有错别字后续可接入本地语音转文字模型,提升输入效率
复杂表单填写(如注册页含邮箱验证、职业选择、兴趣标签)能识别字段并填写,但对“兴趣标签”的多选逻辑理解不稳定建议用户拆分为两步指令:“先填基本信息,再选兴趣标签”
视频类App互动(如抖音评论区回复)能定位评论框并点击,但对“@好友”自动联想支持弱可通过自定义工具插件增强,项目文档已提供扩展接口

这些不是缺陷,而是清晰的能力刻度。它不假装全能,但把能做的部分做到扎实、稳定、有温度。

5. 为什么这次效果展示值得你认真看完?

因为Open-AutoGLM 正在解决一个被长期忽视的断层问题:大模型能力与真实设备操作之间的最后一公里。

过去,我们有强大的语言模型,也有成熟的自动化框架(如Appium),但两者之间隔着一道墙——模型输出的是“文字计划”,框架执行的是“代码指令”,中间需要工程师手动翻译。而Open-AutoGLM 把这堵墙拆了。

它让“打开小红书搜美食”这句人话,直接变成一串精准的ADB命令流;让“帮妈妈挂明天上午的号”这种家庭需求,落地为医院App里真实的挂号动作。它不追求在排行榜上争第一,而是默默把AI从服务器里请出来,放进你的口袋,成为那个永远在线、从不抱怨、越用越懂你的手机搭档。

如果你曾为重复操作手机而烦躁,为教长辈用智能机而疲惫,为运营多个账号而分身乏术——那么,这不是一个“未来可期”的技术预告,而是今天就可以下载、配置、亲眼见证它为你省下那几分钟的实在工具。

6. 总结:效果即价值,自然即高级

Open-AutoGLM 的惊艳,不在参数有多炫,而在它让技术退到了幕后。你看不到模型推理、看不到ADB命令、看不到视觉编码——你只看到:
你说一句话,手机就动了起来;
你提一个需求,事情就做成了;
你遇到一个意外,它就安静等你回来。

这种“不打扰的智能”,才是AI真正融入生活的样子。

它目前还不是完美的,但它足够真实、足够可用、足够让你在今天下午就试试看。而所有伟大的工具,都是从“能用”开始,走向“离不开”的。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/14 19:49:57

RMBG-2.0效果惊艳展示:1024×1024输入下0.8秒生成高清透明PNG

RMBG-2.0效果惊艳展示:10241024输入下0.8秒生成高清透明PNG 1. 开篇:新一代背景移除技术震撼登场 想象一下,你刚拍完一组产品照片,需要快速去除背景用于电商平台展示。传统方法可能需要花费数小时手动抠图,而现在&am…

作者头像 李华
网站建设 2026/2/11 8:31:28

联发科设备修复全指南:从故障诊断到系统康复的技术路径

联发科设备修复全指南:从故障诊断到系统康复的技术路径 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient 在移动设备维护领域,联发科芯片方案广泛应用于各类智能终端&…

作者头像 李华
网站建设 2026/2/13 17:08:16

5大兼容性难题一键解决:写给魔兽争霸III玩家的优化指南

5大兼容性难题一键解决:写给魔兽争霸III玩家的优化指南 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否遇到这些问题? •…

作者头像 李华
网站建设 2026/2/13 7:45:09

PyTorch-2.x-Universal-Dev-v1.0镜像简化深度学习项目部署流程

PyTorch-2.x-Universal-Dev-v1.0镜像简化深度学习项目部署流程 1. 为什么你需要一个开箱即用的PyTorch开发环境 你是否经历过这样的场景:刚拿到一台新服务器,第一件事就是花两小时配置CUDA、安装PyTorch、调试各种依赖冲突?或者在团队协作中…

作者头像 李华
网站建设 2026/2/10 13:50:28

Open-AutoGLM Python API调用示例,开发更灵活

Open-AutoGLM Python API调用示例,开发更灵活 在手机操作自动化领域,开发者长期面临一个核心矛盾:既要实现精准的界面理解与动作执行,又希望拥有足够的编程自由度来适配复杂业务逻辑。命令行工具虽开箱即用,但难以嵌入…

作者头像 李华
网站建设 2026/2/8 0:50:31

从零到一:华大HC32F460在IAR环境下的工程构建艺术

华大HC32F460在IAR环境下的工程构建实战指南 1. 工程构建前的准备工作 对于初次接触华大HC32F460单片机的开发者来说,在IAR环境下构建工程可能会遇到不少挑战。与常见的STM32开发环境不同,华大单片机在IAR中的配置有其独特之处。我们先从最基本的准备工…

作者头像 李华