不用写代码!Open-AutoGLM让普通人玩转AI自动化
1. 引言:当AI成为你的手机助手
你有没有想过,有一天只要动动嘴说一句“帮我打开小红书搜一下周末去哪玩”,手机就会自动执行这一系列操作?不需要你点开App、输入关键词、翻找内容——全部由AI代劳。
这不再是科幻场景。Open-AutoGLM正是这样一个能让普通人轻松实现手机自动化的AI框架。它来自智谱开源团队,名字里的“AutoGLM”代表其核心能力:通过自然语言驱动手机完成复杂任务。而最惊人的是——你完全不需要写一行代码。
这个系统背后是一个叫AutoGLM-Phone的AI Agent(智能代理),它可以“看懂”你的手机屏幕、“听懂”你的指令,并像真人一样点击、滑动、输入文字,完成从搜索到关注、从查询信息到批量处理的全流程操作。
更棒的是,整个过程只需要你说一句话。比如:
“打开抖音,搜索ID为dycwo11nt61d的博主并关注他。”
接下来的事,就交给AI吧。
本文将带你零基础了解 Open-AutoGLM 是如何工作的,如何在自己的设备上部署使用,以及它能为你带来哪些实实在在的便利。无论你是技术小白还是开发者,都能快速上手,真正体验“动口不动手”的智能生活。
2. 核心原理:AI是怎么“操控”手机的?
2.1 它不只是个聊天机器人
很多人以为大模型只能回答问题或生成文本,但 Open-AutoGLM 不同。它是一个多模态AI Agent,具备三种关键能力:
- 看得见:能实时获取手机屏幕截图和界面结构
- 想得清:理解你的自然语言指令,规划出一步步操作流程
- 做得了:通过技术手段真实操控手机完成点击、输入等动作
这就构成了一个完整的“感知—思考—行动”闭环,就像一个人类用户在操作手机。
2.2 多模态输入:AI是如何“看”手机屏幕的?
每次执行任务时,Open-AutoGLM 会从手机获取三样东西:
- 屏幕截图:一张当前界面的图片,让AI知道你现在看到什么。
- UI结构数据(XML):类似网页HTML,描述每个按钮、输入框的位置和功能。
- 前台应用信息:当前正在使用的App名称和页面状态。
这些信息一起传给视觉语言模型,让它不仅能“看见”画面,还能“读懂”控件含义。比如,它能识别出哪个是搜索框、哪个是返回按钮,甚至分辨广告弹窗和正常内容。
2.3 自然语言驱动:一句话就能启动复杂流程
你只需要输入一句普通的话,比如:
“打开淘宝,搜索蓝牙耳机,按价格从低到高排序。”
AI内部会自动拆解成多个步骤:
- 启动淘宝App
- 找到顶部的搜索栏并点击
- 输入“蓝牙耳机”
- 点击“搜索”按钮
- 进入结果页后找到“价格排序”选项
- 选择“从低到高”
每一步都由AI自主判断和执行,过程中还会不断检查界面变化,确保操作正确无误。
2.4 动作执行:AI是怎么“动手”的?
所有操作最终通过ADB(Android Debug Bridge)实现。这是安卓官方提供的调试工具,允许电脑控制手机。Open-AutoGLM 利用 ADB 发送以下指令:
Tap(x, y):在指定坐标点击Swipe(x1, y1, x2, y2):滑动操作Type("文字"):输入文本Launch(package_name):启动某个AppBack()/Home():模拟返回键或主页键
由于这些是系统级操作,AI几乎可以做任何你能手动完成的事情。
3. 如何连接你的手机?三步搞定本地配置
要让 Open-AutoGLM 控制你的手机,需要先完成一些准备工作。别担心,虽然听起来有点技术感,但我们一步步来,保证你能跟上。
3.1 准备工作清单
你需要准备以下几样东西:
| 项目 | 要求 |
|---|---|
| 电脑 | Windows 或 Mac,建议Python 3.10以上 |
| 手机 | Android 7.0 及以上版本的真实设备或模拟器 |
| 数据线 | 用于USB连接(可选) |
| ADB工具 | Android调试桥接程序 |
3.2 安装ADB并配置环境
ADB 是连接电脑和手机的关键工具。安装方法如下:
Windows 用户:
- 下载 Platform Tools 并解压。
- 将解压后的文件夹路径添加到系统环境变量中:
- 按
Win + R,输入sysdm.cpl - 点击“高级” → “环境变量”
- 在“系统变量”里找到
Path,点击“编辑” - 添加ADB所在目录路径(如
C:\platform-tools)
- 按
- 打开命令行,输入
adb version,如果显示版本号说明安装成功。
Mac 用户:
在终端运行以下命令(假设你把 platform-tools 放在 Downloads 文件夹):
export PATH=${PATH}:~/Downloads/platform-tools之后也可以用adb version验证是否安装成功。
3.3 手机端设置:开启开发者权限
为了让电脑控制手机,必须开启两个关键设置:
开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示已开启开发者模式。开启USB调试
返回设置主菜单 →「开发者选项」→ 勾选“USB调试”。安装ADB Keyboard(重要!)
下载并安装 ADB Keyboard APK。
安装后进入「语言与输入法」设置,将默认输入法切换为 ADB Keyboard。
这是为了让AI能够输入文字,否则无法完成搜索、填写表单等操作。
4. 部署控制端:让AI接管手机
现在我们已经准备好硬件环境,接下来要下载 Open-AutoGLM 的控制代码,在本地电脑上运行。
4.1 下载项目代码
打开命令行工具(Windows PowerShell 或 Mac Terminal),依次执行:
# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖包 pip install -r requirements.txt pip install -e .这一步完成后,你就拥有了本地的控制程序。
4.2 连接手机设备
确保手机通过USB连接电脑,或者在同一WiFi下进行无线连接。
方法一:USB连接(推荐新手)
插上数据线后,在命令行输入:
adb devices你会看到类似这样的输出:
List of devices attached AERFUT4B08000806 device只要有设备ID出现且状态为device,说明连接成功。
方法二:WiFi无线连接(适合远程控制)
如果你不想一直连着线,可以用WiFi连接:
- 先用USB连接手机,然后运行:
adb tcpip 5555 - 断开USB线,在命令行输入:
(把adb connect 192.168.x.x:5555192.168.x.x替换为你手机的实际IP地址)
再次运行adb devices查看是否连接成功。
5. 让AI开始干活:一句话启动自动化
一切准备就绪,现在可以下达第一条指令了!
5.1 命令行运行示例
在 Open-AutoGLM 目录下运行以下命令:
python main.py \ --device-id AERFUT4B08000806 \ --base-url http://你的服务器IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:通过adb devices获取的设备ID--base-url:AI模型所在的服务器地址(公网IP+端口)--model:使用的模型名称- 最后的字符串:你要下达的自然语言指令
只要你有可用的模型服务(无论是自己部署还是使用云端接口),这条命令就能立即执行。
5.2 如果没有GPU服务器怎么办?
你可能会问:“我没有H800显卡,也没有服务器,能用吗?”
答案是:可以!
Open-AutoGLM 支持在 Apple M2/M3 芯片的 Mac 上本地运行。虽然速度比不上高端GPU,但对于日常轻量任务完全够用。
在Mac上本地运行的方法:
- 下载模型并进行4-bit量化压缩(节省内存):
huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit- 启动本地推理:
python main.py --local --model ./models/autoglm-9b-4bit "打开微信"这样就不依赖外部服务器,所有数据都在本地处理,更加安全私密。
6. 实际应用场景:AI能帮你做什么?
别以为这只是个玩具。Open-AutoGLM 已经能在很多真实场景中发挥作用。
6.1 日常生活自动化
- “帮我查一下今天北京到上海的高铁票”
- “打开美团,订一家评分4.5以上的川菜馆”
- “把上周的照片上传到百度网盘”
- “定时每天早上8点打开健康码小程序截图保存”
这些原本需要你手动操作几分钟的任务,现在一句话就能完成。
6.2 内容创作者的好帮手
- “打开小红书,搜索‘穿搭推荐’,收藏前10条笔记”
- “批量点赞我关注的博主最新发布的5条动态”
- “把我剪辑好的视频发布到抖音,标题写‘今日份OOTD’”
再也不用手动刷屏、重复操作,提升效率不是一点点。
6.3 企业测试工程师的新工具
某公司用 Open-AutoGLM 对一款名为“港话通”的AI助手App进行全面测试,任务指令是:
“你是一个大模型测试工程师,你需要对港话通进行测试……如果模型返回的内容有问题你要记得提bug。”
结果AI自动完成了四大功能验证:
| 功能 | 是否成功 | 关键动作 |
|---|---|---|
| 天气查询 | 输入日期、获取温度湿度等详细数据 | |
| 到站功能 | 查询路线、AI反问目的地以优化建议 | |
| 法律咨询 | 提问“香港法定年龄”,获得完整法律依据 | |
| 交通查询 | 列出9种主要交通方式及使用场景 |
整个过程无需人工干预,AI不仅执行操作,还能判断结果是否合理,发现异常时自动截图上报。
7. 安全机制:AI不会乱来
你可能担心:AI会不会误操作支付、泄露隐私?
Open-AutoGLM 设计了多重安全保障:
7.1 敏感操作人工接管
当进入银行App、支付页面或验证码输入界面时,AI会自动停止执行,并输出:
{"action": "Take_over"}意思是:“这里太敏感了,请你自己来操作。”
等你完成验证后,再交还给AI继续后续流程。
7.2 远程调试与监控
支持通过WiFi远程连接设备,开发者可以在办公室调试家里的手机,或者为企业提供集中化管理方案。
同时所有操作日志都会记录下来,包括每一步的思考过程和执行动作,方便追溯和审计。
8. 总结:人人都能用的AI自动化时代来了
Open-AutoGLM 正在打破一个长久以来的技术壁垒:自动化不该只属于程序员。
过去,手机自动化需要编写复杂的脚本,学习UiAutomator、Appium等工具,门槛极高。而现在,只要你能说出一句话,AI就能替你完成所有操作。
它的意义不仅在于“省事”,更在于开启了意图驱动的智能交互新时代:
- 以前:你必须学会怎么操作手机
- 现在:你只需要表达你想做什么,剩下的交给AI
无论是个人用户想解放双手,还是企业希望提升测试效率,Open-AutoGLM 都提供了一个强大而易用的解决方案。
更重要的是,它是开源的。任何人都可以免费使用、修改、部署,真正实现了AI技术的普惠化。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。