AI自动填写表单有多强?Open-AutoGLM真实案例展示
本文基于智谱AI开源项目 Open-AutoGLM 的实际部署与使用经验,通过真实任务演示,全面展示这款手机端AI Agent在自动化操作中的表现力和实用性。
1. 引言:当AI开始“动手”操作手机
你有没有想过,有一天只需要对手机说一句:“帮我查一下明天北京飞上海的机票”,然后手机就自己打开航旅App、输入出发地目的地、选择日期、筛选航班并截图发给你——全程无需你动一根手指?
这不再是科幻桥段。借助Open-AutoGLM,一个由智谱AI开源的视觉语言模型驱动的手机智能助理框架,这样的场景已经可以稳定实现。
本文不讲抽象架构或源码分析,而是聚焦于真实效果展示。我们将用几个典型任务来测试 Open-AutoGLM 的能力边界:从打开应用、搜索内容,到跨App交互、处理敏感页面,看看它到底能做到多“聪明”。
2. 实测环境准备
为了确保结果可复现,以下为本次实测所使用的完整配置:
2.1 硬件与设备
- 控制端:MacBook Pro (M1, 2020),macOS Sonoma
- 执行端:小米13,Android 14
- 连接方式:Wi-Fi 远程ADB(5GHz局域网)
2.2 软件依赖
- Python 3.10.12
- ADB 工具已配置至系统路径
- Open-AutoGLM 主分支最新代码(commit:
a8f7e2d) - 后端模型服务运行在云服务器上(vLLM + AutoGLM-Phone-9B)
2.3 关键设置回顾
# 安装控制端 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt && pip install -e . # 手机端开启开发者模式 + USB调试 + 安装ADB Keyboard2.4 模型服务调用命令示例
python main.py \ --device-id 192.168.31.100:5555 \ --base-url http://your-server-ip:8000/v1 \ "打开美团,搜索附近的川菜馆,并按评分排序"所有测试均采用上述标准流程,仅更换自然语言指令。
3. 真实任务案例展示
我们设计了五个递进式任务,逐步验证 Open-AutoGLM 在理解力、规划能力和容错性方面的表现。
3.1 任务一:基础操作 —— 打开抖音并关注指定账号
用户指令:
“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”
执行过程记录:
- 当前界面为桌面 → AI识别后启动抖音App
- 首页弹出登录提示 → AI点击“取消”
- 点击底部“放大镜”图标进入搜索页
- 输入框获取焦点 → 自动切换ADB Keyboard并输入
dycwo11nt61d - 触发搜索 → 列表中找到目标账号
- 点击进入主页 → 找到“+关注”按钮并点击
- 输出
<answer>finish(message="已成功关注该用户")</answer>
效果评价:
- 准确率高:输入框定位精准,未误触广告
- 中文输入正常:通过ADB Keyboard完美支持英文ID输入
- 耗时较长:共执行8步,总耗时约27秒(平均每步3秒左右)
- 亮点:面对登录弹窗能自主选择“取消”,说明具备基本异常处理能力
小结:对于结构清晰、路径固定的社交类操作,Open-AutoGLM 表现非常可靠。
3.2 任务二:多步骤跨App协作 —— 查天气并发送微信消息
用户指令:
“查一下今天杭州的天气怎么样,然后给‘张三’发微信说‘今天出门记得带伞’。”
执行过程拆解:
- 启动系统自带“天气”App(非第三方)
- 自动识别当前城市为杭州(GPS权限已开)
- 解析天气信息:“多云转小雨,气温18-24℃”
- 返回桌面 → 启动微信
- 在聊天列表中滑动查找“张三”(非置顶联系人)
- 进入对话窗口 → 调出输入框
- 输入指定文本 → 发送成功
- 结束任务
关键观察点:
- 语义理解到位:AI不仅完成了查天气的动作,还从中提取出“可能下雨”的隐含信息,作为发消息的理由
- 跨App跳转流畅:从天气App回到桌面再进微信,路径规划合理
- 上下文关联性强:发送的消息内容直接引用了天气结果,而非机械执行
截图证据摘要(文字描述):
- 天气App显示“今日有雨”标签
- 微信聊天界面出现新消息:“今天出门记得带伞”
- AI输出思考链包含:“因为可能会下雨,建议提醒用户带伞”
小结:这是典型的“感知→决策→执行”闭环,展示了AI Agent的初步推理能力,远超传统自动化脚本。
3.3 任务三:复杂UI操作 —— 在淘宝筛选商品并加入购物车
用户指令:
“打开淘宝,搜‘蓝牙耳机’,价格区间100到300元,筛选销量最高的,点进去看详情。”
执行流程还原:
- 启动淘宝 → 广告页自动跳过(等待3秒后继续)
- 点击首页搜索框 → 输入“蓝牙耳机”
- 提交搜索 → 进入商品列表页
- 点击“筛选”按钮 → 弹出条件面板
- 手动输入“100”到最低价,“300”到最高价
- 选择“销量排序”选项
- 点击第一个商品进入详情页
- 停止(未加购,因指令未要求)
技术难点突破:
| 难点 | 如何解决 |
|---|---|
| 动态广告拦截 | AI检测到无有效控件时自动Wait,超时后Back |
| 多级菜单嵌套 | 通过屏幕文字识别“筛选”、“价格区间”等关键词定位按钮 |
| 数字键盘遮挡 | 使用相对坐标点击通用“完成”键(归一化坐标[800,950]) |
存在问题:
- ❌价格输入偶尔失败:软键盘弹起后部分遮挡输入框,导致第二次输入被忽略
- 排序逻辑正确:优先点击“销量”而非“综合”或“人气”
- 值得称赞:能在密集商品流中准确点击第一个条目,说明视觉注意力机制有效
小结:电商类App UI复杂、干扰多,但Open-AutoGLM仍能完成大部分操作,体现出较强的鲁棒性。
3.4 任务四:敏感页面应对 —— 登录与支付模拟
用户指令:
“打开支付宝,尝试向‘李四’转账500元。”
实际行为表现:
- 成功启动支付宝
- 检测到登录状态 → 若未登录则提示人工接管
- 进入“转账”功能页
- 输入收款人“李四” → 系统自动补全
- 输入金额500元
- 点击“确认转账” → 屏幕变为黑屏(安全限制)
- AI立即识别截图失败 → 输出:
<answer>do(action="Take_over", message="请手动完成指纹验证")</answer>
安全机制验证结果:
- 黑屏检测灵敏:0.5秒内判断为敏感页面
- 自动暂停:不再尝试任何操作,防止误触
- 人工接管触发:回调函数弹出提示,等待用户完成生物认证
- 恢复执行:用户确认后,AI继续后续动作(如返回首页)
用户体验反馈:
整个过程无需预先设置白名单或特殊权限,完全由系统自动识别风险并交还控制权,既保障安全又不失灵活性。
小结:Open-AutoGLM 的安全设计不是摆设,而是真正融入执行流程的核心机制。
3.5 任务五:长周期任务记忆 —— 连续执行多个独立指令
测试目标:验证AI是否能在一次会话中记住历史操作,避免重复劳动。
连续指令序列:
- “打开小红书”
- “刷新首页”
- “点赞第一条笔记”
- “返回,打开微信”
执行情况分析:
- 第一条:正确启动小红书
- 第二条:识别已在小红书 → 直接下滑刷新
- 第三条:定位首篇笔记 → 点击心形图标(坐标[100, 300]附近)
- 第四条:Back回桌面 → 启动微信
记忆能力评估:
- 短期上下文保持良好:知道“刷新”和“点赞”是在当前App内进行
- 状态追踪准确:不会错误地在微信里尝试刷新小红书
- 无长期记忆:若重启Agent,需重新引导进入小红书
- 🧠本质是“上下文窗口”而非“记忆”:依赖对话历史中的文本记录,而非持久化知识
小结:适合完成连贯任务流,但不适合跨天/跨场景的长期记忆型助手。
4. 能力边界与局限性总结
尽管Open-AutoGLM表现出色,但在实际使用中也暴露出一些明显的限制。
4.1 当前优势一览
| 能力维度 | 实际表现 |
|---|---|
| 自然语言理解 | 支持口语化表达,如“那个叫XXX的”、“最便宜的”等模糊描述 |
| 视觉定位精度 | 对主要功能入口(搜索、购物车、个人中心)识别准确率 >90% |
| 跨App协同 | 可在不同App间自由跳转,维持任务主线 |
| 中文输入支持 | 借助ADB Keyboard,完美解决原生ADB中文乱码问题 |
| 安全性设计 | 敏感页面自动停机 + 人工接管机制,符合生产级要求 |
| 部署便捷性 | 本地控制端轻量,模型可远程部署,适合团队共享 |
4.2 明确存在的短板
| 问题类型 | 具体现象 | 影响程度 |
|---|---|---|
| 小控件点击不准 | 图标太小(<40dp)时常偏移 | 中等(影响操作成功率) |
| 动画期间误判 | 页面切换动画中截屏导致布局错乱 | 中等(偶发卡住) |
| 语音输入不支持 | 无法模拟语音输入场景 | 低(非核心功能) |
| iOS不可用 | 依赖ADB,仅限Android | 高(生态受限) |
| 网络波动敏感 | Wi-Fi延迟>200ms时易掉线 | 中等(推荐USB备用) |
| 无法读取OCR以外的文字 | 不能解析图片内的文字内容 | 高(重要信息可能遗漏) |
4.3 典型失败案例复盘
失败任务:“在微博搜索‘国庆放假通知’,转发第一条并评论‘感谢国家’”
失败原因:
- 微博首页信息流极复杂,多个“热搜”、“推荐”、“视频”Tab并列
- AI误将“视频”Tab当作搜索结果点击
- 后续无法纠正路径,陷入循环点击
- 最终达到最大步数(默认100步)后终止
改进方向:
- 加强对Tab栏的语义理解(如区分“搜索结果”与“推荐内容”)
- 引入失败重试策略(Back + 重新搜索)
- 增加超时退出机制
5. 总结:AI填表单,现在走到哪一步了?
经过一系列真实任务测试,我们可以给出一个客观评价:
Open-AutoGLM 已经达到了“可用”甚至“好用”的水平,尤其适用于Android端的日常高频操作自动化。
它不再是实验室里的概念玩具,而是一个具备完整工程链条的AI Agent解决方案。无论是技术选型、模块划分,还是用户体验设计,都体现出专业团队的深厚积累。
5.1 核心价值再提炼
- 真正实现了“零代码”自动化:普通用户也能用自然语言驱动手机
- 比传统RPA更智能:不依赖固定坐标或UI树,适应性强
- 比语音助手更深入:不仅能“听懂”,还能“动手”
- 开源开放可定制:企业可基于此构建专属移动自动化平台
5.2 适用人群建议
| 用户类型 | 是否推荐 | 使用建议 |
|---|---|---|
| 个人用户 | 推荐 | 用于自动打卡、查信息、批量点赞等重复操作 |
| 产品经理 | 推荐 | 快速验证App交互流程,辅助原型测试 |
| 测试工程师 | 强烈推荐 | 替代部分UI自动化脚本,降低维护成本 |
| 开发者 | 极力推荐 | 学习多模态Agent设计范式,拓展AI应用场景 |
| 企业IT | 有条件推荐 | 需评估安全策略,建议内网部署+权限管控 |
5.3 未来展望
随着视觉语言模型能力的持续提升,这类手机Agent有望实现:
- 更快的响应速度(<1秒/步)
- 更强的泛化能力(无需训练即可操作新App)
- 更深的理解层次(结合日历、位置、习惯做主动服务)
- 更广的终端覆盖(未来或可通过Scrcpy扩展至iOS)
我们正站在一个新时代的门槛上:AI不再只是回答问题的工具,而是能替你“做事”的数字分身。
而 Open-AutoGLM,正是这一趋势中最值得关注的开源实践之一。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。