不用写代码！Open-AutoGLM让普通人玩转AI自动化-平芜编程栈

不用写代码！Open-AutoGLM让普通人玩转AI自动化

1. 引言：当AI成为你的手机助手

你有没有想过，有一天只要动动嘴说一句“帮我打开小红书搜一下周末去哪玩”，手机就会自动执行这一系列操作？不需要你点开App、输入关键词、翻找内容——全部由AI代劳。

这不再是科幻场景。Open-AutoGLM正是这样一个能让普通人轻松实现手机自动化的AI框架。它来自智谱开源团队，名字里的“AutoGLM”代表其核心能力：通过自然语言驱动手机完成复杂任务。而最惊人的是——你完全不需要写一行代码。

这个系统背后是一个叫AutoGLM-Phone的AI Agent（智能代理），它可以“看懂”你的手机屏幕、“听懂”你的指令，并像真人一样点击、滑动、输入文字，完成从搜索到关注、从查询信息到批量处理的全流程操作。

更棒的是，整个过程只需要你说一句话。比如：

“打开抖音，搜索ID为dycwo11nt61d的博主并关注他。”

接下来的事，就交给AI吧。

本文将带你零基础了解 Open-AutoGLM 是如何工作的，如何在自己的设备上部署使用，以及它能为你带来哪些实实在在的便利。无论你是技术小白还是开发者，都能快速上手，真正体验“动口不动手”的智能生活。

2. 核心原理：AI是怎么“操控”手机的？

2.1 它不只是个聊天机器人

很多人以为大模型只能回答问题或生成文本，但 Open-AutoGLM 不同。它是一个多模态AI Agent，具备三种关键能力：

看得见：能实时获取手机屏幕截图和界面结构
想得清：理解你的自然语言指令，规划出一步步操作流程
做得了：通过技术手段真实操控手机完成点击、输入等动作

这就构成了一个完整的“感知—思考—行动”闭环，就像一个人类用户在操作手机。

2.2 多模态输入：AI是如何“看”手机屏幕的？

每次执行任务时，Open-AutoGLM 会从手机获取三样东西：

屏幕截图：一张当前界面的图片，让AI知道你现在看到什么。
UI结构数据（XML）：类似网页HTML，描述每个按钮、输入框的位置和功能。
前台应用信息：当前正在使用的App名称和页面状态。

这些信息一起传给视觉语言模型，让它不仅能“看见”画面，还能“读懂”控件含义。比如，它能识别出哪个是搜索框、哪个是返回按钮，甚至分辨广告弹窗和正常内容。

2.3 自然语言驱动：一句话就能启动复杂流程

你只需要输入一句普通的话，比如：

“打开淘宝，搜索蓝牙耳机，按价格从低到高排序。”

AI内部会自动拆解成多个步骤：

启动淘宝App
找到顶部的搜索栏并点击
输入“蓝牙耳机”
点击“搜索”按钮
进入结果页后找到“价格排序”选项
选择“从低到高”

每一步都由AI自主判断和执行，过程中还会不断检查界面变化，确保操作正确无误。

2.4 动作执行：AI是怎么“动手”的？

所有操作最终通过ADB（Android Debug Bridge）实现。这是安卓官方提供的调试工具，允许电脑控制手机。Open-AutoGLM 利用 ADB 发送以下指令：

Tap(x, y)：在指定坐标点击
Swipe(x1, y1, x2, y2)：滑动操作
Type("文字")：输入文本
Launch(package_name)：启动某个App
Back()/Home()：模拟返回键或主页键

由于这些是系统级操作，AI几乎可以做任何你能手动完成的事情。

3. 如何连接你的手机？三步搞定本地配置

要让 Open-AutoGLM 控制你的手机，需要先完成一些准备工作。别担心，虽然听起来有点技术感，但我们一步步来，保证你能跟上。

3.1 准备工作清单

你需要准备以下几样东西：

项目	要求
电脑	Windows 或 Mac，建议Python 3.10以上
手机	Android 7.0 及以上版本的真实设备或模拟器
数据线	用于USB连接（可选）
ADB工具	Android调试桥接程序

3.2 安装ADB并配置环境

ADB 是连接电脑和手机的关键工具。安装方法如下：

Windows 用户：

下载 Platform Tools 并解压。
将解压后的文件夹路径添加到系统环境变量中：
- 按Win + R，输入sysdm.cpl
- 点击“高级” → “环境变量”
- 在“系统变量”里找到Path，点击“编辑”
- 添加ADB所在目录路径（如C:\platform-tools）
打开命令行，输入adb version，如果显示版本号说明安装成功。

Mac 用户：

在终端运行以下命令（假设你把 platform-tools 放在 Downloads 文件夹）：

export PATH=${PATH}:~/Downloads/platform-tools

之后也可以用adb version验证是否安装成功。

3.3 手机端设置：开启开发者权限

为了让电脑控制手机，必须开启两个关键设置：

开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次，直到提示已开启开发者模式。
开启USB调试
返回设置主菜单 →「开发者选项」→ 勾选“USB调试”。
安装ADB Keyboard（重要！）
下载并安装 ADB Keyboard APK。
安装后进入「语言与输入法」设置，将默认输入法切换为 ADB Keyboard。
这是为了让AI能够输入文字，否则无法完成搜索、填写表单等操作。

4. 部署控制端：让AI接管手机

现在我们已经准备好硬件环境，接下来要下载 Open-AutoGLM 的控制代码，在本地电脑上运行。

4.1 下载项目代码

打开命令行工具（Windows PowerShell 或 Mac Terminal），依次执行：

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖包 pip install -r requirements.txt pip install -e .

这一步完成后，你就拥有了本地的控制程序。

4.2 连接手机设备

确保手机通过USB连接电脑，或者在同一WiFi下进行无线连接。

方法一：USB连接（推荐新手）

插上数据线后，在命令行输入：

adb devices

你会看到类似这样的输出：

List of devices attached AERFUT4B08000806 device

只要有设备ID出现且状态为device，说明连接成功。

方法二：WiFi无线连接（适合远程控制）

如果你不想一直连着线，可以用WiFi连接：

先用USB连接手机，然后运行：
```
adb tcpip 5555
```
断开USB线，在命令行输入：
```
adb connect 192.168.x.x:5555
```
（把192.168.x.x替换为你手机的实际IP地址）

再次运行adb devices查看是否连接成功。

5. 让AI开始干活：一句话启动自动化

一切准备就绪，现在可以下达第一条指令了！

5.1 命令行运行示例

在 Open-AutoGLM 目录下运行以下命令：

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://你的服务器IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：通过adb devices获取的设备ID
--base-url：AI模型所在的服务器地址（公网IP+端口）
--model：使用的模型名称
最后的字符串：你要下达的自然语言指令

只要你有可用的模型服务（无论是自己部署还是使用云端接口），这条命令就能立即执行。

5.2 如果没有GPU服务器怎么办？

你可能会问：“我没有H800显卡，也没有服务器，能用吗？”

答案是：可以！

Open-AutoGLM 支持在 Apple M2/M3 芯片的 Mac 上本地运行。虽然速度比不上高端GPU，但对于日常轻量任务完全够用。

在Mac上本地运行的方法：

下载模型并进行4-bit量化压缩（节省内存）：

huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit

启动本地推理：

python main.py --local --model ./models/autoglm-9b-4bit "打开微信"

这样就不依赖外部服务器，所有数据都在本地处理，更加安全私密。

6. 实际应用场景：AI能帮你做什么？

别以为这只是个玩具。Open-AutoGLM 已经能在很多真实场景中发挥作用。

6.1 日常生活自动化

“帮我查一下今天北京到上海的高铁票”
“打开美团，订一家评分4.5以上的川菜馆”
“把上周的照片上传到百度网盘”
“定时每天早上8点打开健康码小程序截图保存”

这些原本需要你手动操作几分钟的任务，现在一句话就能完成。

6.2 内容创作者的好帮手

“打开小红书，搜索‘穿搭推荐’，收藏前10条笔记”
“批量点赞我关注的博主最新发布的5条动态”
“把我剪辑好的视频发布到抖音，标题写‘今日份OOTD’”

再也不用手动刷屏、重复操作，提升效率不是一点点。

6.3 企业测试工程师的新工具

某公司用 Open-AutoGLM 对一款名为“港话通”的AI助手App进行全面测试，任务指令是：

“你是一个大模型测试工程师，你需要对港话通进行测试……如果模型返回的内容有问题你要记得提bug。”

结果AI自动完成了四大功能验证：

功能	是否成功	关键动作
天气查询	输入日期、获取温度湿度等详细数据
到站功能	查询路线、AI反问目的地以优化建议
法律咨询	提问“香港法定年龄”，获得完整法律依据
交通查询	列出9种主要交通方式及使用场景

整个过程无需人工干预，AI不仅执行操作，还能判断结果是否合理，发现异常时自动截图上报。

7. 安全机制：AI不会乱来

你可能担心：AI会不会误操作支付、泄露隐私？

Open-AutoGLM 设计了多重安全保障：

7.1 敏感操作人工接管

当进入银行App、支付页面或验证码输入界面时，AI会自动停止执行，并输出：

{"action": "Take_over"}

意思是：“这里太敏感了，请你自己来操作。”
等你完成验证后，再交还给AI继续后续流程。

7.2 远程调试与监控

支持通过WiFi远程连接设备，开发者可以在办公室调试家里的手机，或者为企业提供集中化管理方案。

同时所有操作日志都会记录下来，包括每一步的思考过程和执行动作，方便追溯和审计。

8. 总结：人人都能用的AI自动化时代来了

Open-AutoGLM 正在打破一个长久以来的技术壁垒：自动化不该只属于程序员。

过去，手机自动化需要编写复杂的脚本，学习UiAutomator、Appium等工具，门槛极高。而现在，只要你能说出一句话，AI就能替你完成所有操作。

它的意义不仅在于“省事”，更在于开启了意图驱动的智能交互新时代：

以前：你必须学会怎么操作手机
现在：你只需要表达你想做什么，剩下的交给AI

无论是个人用户想解放双手，还是企业希望提升测试效率，Open-AutoGLM 都提供了一个强大而易用的解决方案。

更重要的是，它是开源的。任何人都可以免费使用、修改、部署，真正实现了AI技术的普惠化。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

不用写代码！Open-AutoGLM让普通人玩转AI自动化