AutoGLM-Phone与RPA融合:企业级自动化流程设想
1. 从手机智能助理到企业级流程自动化
你有没有想过,一部普通安卓手机,能成为企业自动化流程的“执行终端”?不是靠预设脚本,也不是靠固定规则,而是像人一样“看懂”界面、“理解”任务、“思考”步骤,再动手操作——这正是 AutoGLM-Phone 带来的范式转变。
它脱胎于智谱开源的 Open-AutoGLM 项目,但不止于一个实验性 Demo。AutoGLM-Phone 是一个真正可落地的手机端 AI Agent 框架,核心能力在于多模态屏幕理解 + ADB 自动化执行 + 自然语言意图驱动。用户说一句“打开小红书搜美食”,它就能识别当前是否在桌面、是否已安装 App、是否需要授权、是否要输入关键词、是否要点击搜索按钮……整个过程无需人工干预,也不依赖 App 内置 API 或 SDK。
而当这个能力被嵌入企业 RPA(机器人流程自动化)体系时,意义就完全不同了。传统 RPA 在 PC 端擅长处理网页表单、Excel 报表、ERP 系统操作;但在移动端,尤其面对大量未开放 API 的社交 App、电商 App、政务小程序时,几乎束手无策。AutoGLM-Phone 正好补上了这块关键拼图——它不挑 App,不依赖开发配合,只要屏幕能显示、手指能点击,它就能学、能看、能做。
这不是“手机版 RPA”,而是RPA 的感知边界第一次真正延伸到了移动界面层。接下来,我们就从技术底座、部署实操、企业集成逻辑三个层面,拆解这个融合方案如何从设想走向可用。
2. 技术底座:为什么 AutoGLM-Phone 能成为 RPA 新触点
2.1 多模态理解:让 AI “看见”并“读懂”手机屏幕
AutoGLM-Phone 的核心不是 OCR,也不是简单截图比对。它基于视觉语言模型(VLM),将手机屏幕截图与自然语言指令联合建模。这意味着:
- 它能区分“搜索框”和“地址栏”,即使两者图标相似;
- 它能理解“右上角三个点”是菜单入口,而不是随便一个圆点;
- 它能识别弹窗中的“允许”按钮和“拒绝”按钮,并根据指令语义选择正确操作;
- 它甚至能结合上下文判断:“登录后跳转的页面”和“首次打开的引导页”结构不同,但任务目标一致。
这种理解能力,远超传统 RPA 的坐标定位或元素 ID 匹配。后者一旦 App 更新 UI,脚本就大面积失效;而 AutoGLM-Phone 只需少量新样本微调,就能适应界面变化——这对高频迭代的移动端应用至关重要。
2.2 ADB 驱动:稳定、通用、免 Root 的执行层
AutoGLM-Phone 不依赖 AccessibilityService(无障碍服务),而是通过 ADB(Android Debug Bridge)完成所有操作。这带来三大实际优势:
- 零侵入性:无需在目标设备上安装额外插件、开启特殊权限或修改系统设置;
- 强稳定性:ADB 是 Android 官方调试协议,底层通信可靠,不受前台 App 切换或后台限制影响;
- 跨设备兼容:支持 Android 7.0+ 所有主流品牌真机与模拟器,包括华为(EMUI)、小米(MIUI)、OPPO(ColorOS)等深度定制系统(只要开启开发者模式)。
更关键的是,ADB 支持 USB 直连与 WiFi 远程双模式。这意味着:一台部署在机房的云服务器,可以同时调度几十台分布在不同工位的测试机;一个远程运维人员,也能通过内网连接产线质检平板,实时接管异常流程。
2.3 安全机制:企业场景不可妥协的底线
企业级自动化最怕什么?不是做错,而是“乱做”。AutoGLM-Phone 内置了面向生产环境的安全设计:
- 敏感操作确认机制:涉及支付、删除、授权、短信发送等高危动作时,自动暂停并等待人工确认(可通过 Web 控制台或消息通知触发);
- 人工接管通道:在验证码识别失败、登录态异常、界面加载超时等场景下,系统主动释放控制权,由运营人员通过远程桌面或手机直连介入;
- 操作审计日志:每一步点击、滑动、输入均记录时间戳、坐标、截图快照及模型决策依据,满足金融、政务等强合规行业审计要求。
这些不是附加功能,而是从框架设计之初就融入的“企业基因”。
3. 本地控制端部署:手把手跑通第一个自动化指令
3.1 硬件与环境准备:三步到位
部署控制端不需要高性能显卡,一台日常办公电脑即可胜任。重点在于环境干净、路径清晰:
- 操作系统:Windows 10/11 或 macOS Monterey 及以上;
- Python 版本:强烈建议使用 Python 3.10(避免 3.12 中部分依赖兼容问题);
- 安卓设备:Android 7.0+ 真机优先(模拟器仅用于开发验证);
- ADB 工具:从 Android SDK Platform-Tools 下载最新版。
ADB 环境变量配置提醒
Windows 用户请务必在“系统变量”中添加 ADB 路径,而非“用户变量”——否则后台服务或定时任务可能无法识别adb命令。macOS 用户若使用 zsh,请将export PATH=${PATH}:~/Downloads/platform-tools写入~/.zshrc并执行source ~/.zshrc。
3.2 手机端设置:只需五次点击
很多连接失败,其实卡在手机设置。按顺序操作,一次成功:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(出现“您现在处于开发者模式”提示);
- 启用 USB 调试:设置 → 系统 → 开发者选项 → 打开“USB 调试”;
- 安装 ADB Keyboard(关键!):
- 下载 ADB Keyboard APK;
- 手机安装后,进入 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”;
- 作用:让 AI 能通过 ADB 发送任意文字,绕过中文输入法兼容性问题。
3.3 控制端代码部署:三行命令启动
# 1. 克隆官方仓库(注意:使用 Open-AutoGLM,非旧版 AutoGLM) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含 ADB 封装库与 API 客户端) pip install -r requirements.txt pip install -e .此时,你的本地电脑已具备“指挥”手机的能力,只差一个云端大脑。
4. 连接与执行:让 AI 真正接管手机
4.1 设备连接:USB 与 WiFi 双模式实测
先确认设备在线:
adb devices # 正常输出示例: # List of devices attached # 1234567890ABCDEF device- USB 模式:即插即用,延迟最低,适合调试与高精度操作;
- WiFi 模式:更适合批量管理或多设备协同。操作分两步:
# 第一步:用 USB 连接临时开启 TCP/IP(只需一次) adb tcpip 5555 # 第二步:断开 USB,用 WiFi 连接(确保手机与电脑在同一局域网) adb connect 192.168.1.100:5555小技巧:用
adb shell ip route | grep wlan可快速查出手机 WiFi IP,避免手动翻设置。
4.2 启动 AI 代理:一条命令完成端到端任务
假设你已在云服务器部署好 vLLM 推理服务(模型为autoglm-phone-9b),映射端口为8800,手机设备 ID 为1234567890ABCDEF,执行以下命令:
python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.10.50:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"你会看到终端实时输出:
- 截图上传 → 模型分析 → 意图解析(“打开抖音”= 启动 App,“搜索抖音号”= 输入框定位+文本输入,“关注”= 识别关注按钮+点击);
- ADB 执行日志(
tap 520 890,input text dycwo11nt61d,swipe 300 1200 300 600); - 最终截图验证关注按钮状态变为“已关注”。
整个过程约 12–18 秒,全程无人值守。
4.3 Python API 集成:嵌入你自己的业务系统
如果企业已有内部工单系统或低代码平台,可直接调用 SDK 封装的 API:
from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 1. 初始化连接(支持 USB/WiFi 混合管理) conn = ADBConnection() conn.connect("192.168.1.100:5555") # 远程设备 # 2. 创建 AI 代理实例 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://192.168.10.50:8800/v1", model="autoglm-phone-9b" ) # 3. 提交任务(返回结构化结果) result = agent.run("导出今天微信聊天中所有带‘发票’的图片,保存到相册") print(f"任务状态:{result.status}") print(f"执行步骤数:{len(result.steps)}") print(f"耗时:{result.duration:.1f}秒")这个 API 返回的不只是“成功/失败”,而是包含每一步操作类型、坐标、截图哈希、模型置信度的完整 trace,可直接写入企业审计数据库。
5. 企业级融合设想:不止于“手机自动化”
把 AutoGLM-Phone 当作一个独立工具,价值有限;但将其作为 RPA 架构中的“移动执行节点”,则能催生全新业务模式:
5.1 场景一:电商客服工单闭环
- 现状:用户在淘宝反馈“订单 123456 的发票没收到”,客服需手动登录千牛、查订单、进税控系统开票、再截图回传——平均耗时 6 分钟;
- 融合方案:RPA 流程接收工单后,调用 AutoGLM-Phone 连接财务人员手机,自动打开税控 App → 输入订单号 → 点击“开具电子发票” → 截图保存 → 上传至工单系统;
- 效果:单次处理压缩至 45 秒,准确率 100%,且全程留痕可追溯。
5.2 场景二:App 兼容性巡检平台
- 现状:每上线一个新版本,QA 团队需在 20+ 机型上手动执行 50+ 条用例,耗时 2 天;
- 融合方案:RPA 调度中心下发巡检任务包(含用例描述、预期截图),AutoGLM-Phone 在各真机上并行执行:打开 App → 滑动至指定页面 → 点击按钮 → 截图比对 → 生成报告;
- 效果:2 小时完成全量巡检,发现 UI 错位、文字截断等视觉问题,准确率高于纯图像比对方案。
5.3 场景三:线下门店数字员工
- 现状:连锁门店每天需上报客流、库存、设备状态,店员用手机拍照填表,数据滞后且易漏;
- 融合方案:部署轻量级 RPA 服务端 + AutoGLM-Phone 客户端,每日 9:00 自动唤醒店员手机:打开监控 App → 截取客流热力图 → 打开进销存系统 → 拍摄货架照片 → OCR 识别库存 → 自动生成日报邮件;
- 效果:数据准时率达 100%,店员每日事务性工作减少 1.5 小时。
这些不是未来畅想,而是当前技术栈已可支撑的落地方案。关键在于:RPA 提供流程编排与系统集成能力,AutoGLM-Phone 提供移动界面操作能力,二者互补,缺一不可。
6. 总结:让自动化真正“无死角”
AutoGLM-Phone 与 RPA 的融合,本质是一次能力边界的重定义。它不再把“自动化”局限在键盘鼠标可及之处,而是延伸到每一个员工指尖滑动的屏幕里,每一个用户扫码进入的小程序中,每一个设备待机时亮起的通知栏上。
我们梳理了从框架原理、本地部署、指令执行到企业集成的完整链路。你会发现,它没有堆砌晦涩术语,不依赖特定硬件,不强制改造现有系统——它用最通用的 ADB 协议、最开放的 VLM 架构、最自然的语言交互,把“让机器替人点手机”这件事,变成了可复制、可审计、可扩展的标准能力。
下一步,你可以做的很简单:
拿出自己的一部旧安卓手机,按本文第三章走一遍;
用adb shell screencap -p /sdcard/screen.png手动截一张图,观察 AutoGLM-Phone 如何解析;
把那句“打开抖音搜索...”换成你工作中真实的重复任务,比如“登录公司 OA 查今日审批流”。
真正的自动化,从来不是等一个完美方案,而是从一个最小可行动作开始。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。