Open-AutoGLM效果展示：自动登录点赞一条龙完成-平芜编程栈

Open-AutoGLM效果展示：自动登录点赞一条龙完成

1. 这不是科幻，是今天就能用的手机AI助手

你有没有过这样的时刻：
想给朋友刚发的小红书笔记点个赞，结果手机屏幕一亮，发现微信弹出三条未读、抖音推送了新视频、小红书又更新了关注列表……手指在屏幕上划来划去，三分钟过去，点赞还没点上。

Open-AutoGLM 不是另一个“概念型”AI项目。它不讲大模型参数量，不比推理速度毫秒级差异，而是直接把“动口不动手”的体验塞进你的日常——比如，你只说一句：“打开小红书，搜‘咖啡探店’，点开第一条笔记，点赞并收藏”，它就真的做了，从解锁手机到点击完成，全程无需你碰一下屏幕。

这不是预设脚本，也不是固定流程。它会实时截图、理解当前界面（按钮在哪、输入框是否可编辑、加载动画是否结束）、判断下一步该点哪里、甚至识别验证码弹窗后主动暂停，等你手动输完再继续。整个过程像有个懂安卓、熟应用、有耐心的真人坐在你手机旁边操作。

我们这次不讲怎么装、不列配置项、不分析架构图。我们就盯着一件事看：它到底能做到多自然、多可靠、多接近“真人操作”的效果？下面这组真实执行记录，全部来自同一台真机（小米13，Android 14），未做任何界面适配或人工干预，指令均为一次输入、全程自动。

2. 效果实录：五步完成“自动登录+点赞+关注”全流程

2.1 场景设定：从零开始，无账号预置

为验证真实可用性，我们刻意选择最典型的“冷启动”场景：

手机未登录小红书账号
App处于首次安装后的空白状态
网络正常，但未提前授权任何权限

指令原文：

“用手机号138****1234登录小红书，密码是Abc123456，然后搜索‘AI工具推荐’，点开第一个笔记，点赞、收藏，并关注作者”

注意：这不是“调用API接口”，而是让AI面对一个完全陌生的登录页，识别“手机号输入框”“密码框”“登录按钮”“搜索栏”“笔记卡片”“点赞图标”“关注按钮”——每一个元素都要靠视觉理解定位，而非坐标硬编码。

2.2 执行过程与关键效果截图还原（文字描述版）

我们无法嵌入动态截图，但用最贴近现场的语言还原每一步的真实表现：

第1步：精准识别登录界面，逐项填写
AI先截取屏幕，识别出顶部Logo、中间两个输入框（带灰色提示文字“手机号/邮箱/用户名”和“密码”）、下方“登录”按钮。它没有误点“微信快捷登录”，也没有把验证码框当成密码框——而是准确点击第一个输入框，调起ADB Keyboard，输入11位手机号；再点击第二个框，输入8位密码。整个输入过程稳定，无错字、无漏字符，光标始终停留在正确位置。

第2步：应对登录后跳转，自主决策下一步
点击“登录”后，页面出现3秒加载动画（小红书特有的旋转图标）。AI未在动画期间盲目点击，而是持续截图检测界面变化。当首页Feed流完整渲染、底部导航栏“首页”“发现”“我”全部可见时，它才开始下一步：点击顶部搜索图标（放大镜）。

第3步：搜索动作干净利落，不依赖历史记录
搜索框弹出后，AI识别出光标已聚焦，直接输入“AI工具推荐”。它没有调用键盘的“搜索建议”，也没有误触“语音输入”麦克风图标——输入完毕后，精准点击右上角“搜索”按钮（非回车键，因软键盘未显示回车）。

第4步：从结果页中“读懂”第一条笔记，定位可交互区域
搜索结果页加载后，AI识别出首条笔记的封面图、标题文字、作者昵称、发布时间、以及右下角的“点赞”“收藏”“分享”三个图标。它没有点错成旁边的“评论气泡”，也没有误触作者头像（那会进入个人主页），而是将操作焦点锁定在笔记卡片整体区域，模拟手指轻点——触发进入详情页。

第5步：详情页内完成点赞、收藏、关注三连击，逻辑闭环
进入详情页后，AI再次截图分析：顶部作者信息区有“关注”按钮（文字为“+ 关注”），右下角有“点赞”心形图标、“收藏”书签图标。它按顺序执行：

先点击心形图标 → 点击后图标由空心变实心，同时屏幕左上角短暂弹出“已点赞”toast提示；
再点击书签图标 → 图标变黄，弹出“已收藏”提示；
最后滚动至顶部，点击作者昵称右侧的“+ 关注” → 按钮文字变为“已关注”，作者主页粉丝数+1。

全程耗时约97秒，含网络请求等待与界面渲染时间。无卡死、无误操作、无重复点击。

2.3 效果质量核心观察点

观察维度	实际表现	小白能感知的说明
界面理解准确率	连续5次不同指令测试，元素识别错误率为0	它没把“搜索”按钮当成“取消”，也没把“收藏”图标当成“分享”，所有点击都落在用户预期位置
操作节奏合理性	等待加载完成才点击，输入后停顿半秒再触发提交	不像脚本那样“疯狂点击”，更像人在操作：输完密码会等界面响应，点完赞会等提示消失再下一步
异常处理能力	第3次测试时，小红书突然弹出“青少年模式”弹窗，AI立即停止后续操作，停留在弹窗界面并输出日志：“检测到权限确认弹窗，请手动处理”	遇到意料之外的界面，它不强行点击，而是安全暂停，把控制权交还给你
跨页面状态记忆	从登录页→首页→搜索页→详情页，始终记得“要给这个作者点赞并关注”	不会搜完就忘，也不会在详情页只点赞却漏掉关注，任务目标贯穿全程

3. 超越“能用”：那些让效果真正惊艳的细节

3.1 它真的在“看”，而不是“猜”

很多自动化工具靠UI控件ID或坐标定位，一旦App更新、换主题、切横屏就失效。Open-AutoGLM 的底层是 AutoGLM-Phone-9B 视觉语言模型，它把手机屏幕当作一张图来理解。

举个例子：我们在小红书详情页，把“点赞”图标临时P图改成一个红色爱心（原图标是粉红色）。多数基于规则的工具会因颜色变化而找不到目标。但Open-AutoGLM依然成功点击——因为它识别的是“位于图片右下角、形状为心形、周围无文字的可点击图标”，而非某个固定色值或像素坐标。

再比如，当搜索结果页出现“广告”标签的笔记时，它会主动跳过第一条（带“广告”角标），选择第二条自然笔记进入——说明它不仅能识别图形，还能理解“广告”与“内容”的语义区别。

3.2 指令越口语，效果越稳

我们对比测试了三类指令表达：

结构化指令：“启动小红书App，等待首页加载完成，点击搜索图标，输入‘AI工具’，点击搜索按钮，点击结果列表第一项，等待详情页加载，点击点赞图标”
→ 执行成功，但步骤冗长，AI需逐条解析，耗时增加22%。
模糊指令：“帮我看看小红书上有什么好用的AI工具”
→ AI识别出意图是“浏览推荐”，但因未指定动作，最终只完成搜索并停留在结果页，未点开任何笔记。
自然口语指令：“小红书上最近火的AI工具都有哪些？给我找几个靠谱的，点开第一个看看”
→效果最佳。AI将“火的”理解为“搜索热度高”，“靠谱的”关联到“官方认证”“高赞笔记”，最终选中一条带蓝V标识、获赞2.3万的笔记，并完整执行点开、阅读、点赞全流程。

这印证了一个关键事实：它不是在执行命令，而是在理解意图。你越像对朋友说话，它越懂你要什么。

3.3 真机上的“呼吸感”：不机械，有分寸

我们特别留意了它的操作“手感”：

点击力度模拟：所有点击都是单次短按，无长按、无双击。点赞后不会连续点三次，收藏后不会反复点书签。
滑动行为克制：在Feed流中，它只在必要时滑动（如搜索结果超过一屏），且滑动距离精准匹配一屏高度，不会多滑半屏导致内容错位。
输入法切换智能：在密码框输入时，它自动启用ADB Keyboard；回到搜索框输入中文时，又无缝切换回系统默认输入法——整个过程无键盘弹出/收起的卡顿。

这种“不抢戏”的克制感，恰恰是专业级体验的标志：工具该隐形时就隐形，该出手时才出手。

4. 实战边界测试：它做不到什么？（坦诚比吹嘘更重要）

效果再好，也要说清能力边界。我们在真机上做了几组压力测试，结果如下：

4.1 明确不可行的场景

涉及生物识别的操作：指纹支付、人脸解锁、相册加密文件夹访问——AI无法绕过系统级安全机制，遇到此类界面会直接报错退出。
强动态验证码：某次测试中，小红书登录后弹出滑块验证码（需拖动拼图）。AI识别出“滑块”和“缺口”，但因缺乏物理拖动能力，仅能提示“检测到图形验证，请手动完成”。
多窗口重叠界面：当微信浮窗+小红书全屏同时存在时，AI会优先处理顶层应用，但无法自主判断“该关浮窗还是切应用”，需用户明确指令如“先关掉微信浮窗”。

4.2 可行但需优化的场景

场景	当前表现	改进建议
长文本输入（如写一篇500字小红书笔记）	能完成，但输入速度较慢（约12字/秒），且偶有错别字	后续可接入本地语音转文字模型，提升输入效率
复杂表单填写（如注册页含邮箱验证、职业选择、兴趣标签）	能识别字段并填写，但对“兴趣标签”的多选逻辑理解不稳定	建议用户拆分为两步指令：“先填基本信息，再选兴趣标签”
视频类App互动（如抖音评论区回复）	能定位评论框并点击，但对“@好友”自动联想支持弱	可通过自定义工具插件增强，项目文档已提供扩展接口