news 2026/3/14 1:45:56

不用写代码!Open-AutoGLM让普通人玩转AI自动化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不用写代码!Open-AutoGLM让普通人玩转AI自动化

不用写代码!Open-AutoGLM让普通人玩转AI自动化

1. 引言:当AI成为你的手机助手

你有没有想过,有一天只要动动嘴说一句“帮我打开小红书搜一下周末去哪玩”,手机就会自动执行这一系列操作?不需要你点开App、输入关键词、翻找内容——全部由AI代劳。

这不再是科幻场景。Open-AutoGLM正是这样一个能让普通人轻松实现手机自动化的AI框架。它来自智谱开源团队,名字里的“AutoGLM”代表其核心能力:通过自然语言驱动手机完成复杂任务。而最惊人的是——你完全不需要写一行代码

这个系统背后是一个叫AutoGLM-Phone的AI Agent(智能代理),它可以“看懂”你的手机屏幕、“听懂”你的指令,并像真人一样点击、滑动、输入文字,完成从搜索到关注、从查询信息到批量处理的全流程操作。

更棒的是,整个过程只需要你说一句话。比如:

“打开抖音,搜索ID为dycwo11nt61d的博主并关注他。”

接下来的事,就交给AI吧。

本文将带你零基础了解 Open-AutoGLM 是如何工作的,如何在自己的设备上部署使用,以及它能为你带来哪些实实在在的便利。无论你是技术小白还是开发者,都能快速上手,真正体验“动口不动手”的智能生活。


2. 核心原理:AI是怎么“操控”手机的?

2.1 它不只是个聊天机器人

很多人以为大模型只能回答问题或生成文本,但 Open-AutoGLM 不同。它是一个多模态AI Agent,具备三种关键能力:

  • 看得见:能实时获取手机屏幕截图和界面结构
  • 想得清:理解你的自然语言指令,规划出一步步操作流程
  • 做得了:通过技术手段真实操控手机完成点击、输入等动作

这就构成了一个完整的“感知—思考—行动”闭环,就像一个人类用户在操作手机。

2.2 多模态输入:AI是如何“看”手机屏幕的?

每次执行任务时,Open-AutoGLM 会从手机获取三样东西:

  1. 屏幕截图:一张当前界面的图片,让AI知道你现在看到什么。
  2. UI结构数据(XML):类似网页HTML,描述每个按钮、输入框的位置和功能。
  3. 前台应用信息:当前正在使用的App名称和页面状态。

这些信息一起传给视觉语言模型,让它不仅能“看见”画面,还能“读懂”控件含义。比如,它能识别出哪个是搜索框、哪个是返回按钮,甚至分辨广告弹窗和正常内容。

2.3 自然语言驱动:一句话就能启动复杂流程

你只需要输入一句普通的话,比如:

“打开淘宝,搜索蓝牙耳机,按价格从低到高排序。”

AI内部会自动拆解成多个步骤:

  1. 启动淘宝App
  2. 找到顶部的搜索栏并点击
  3. 输入“蓝牙耳机”
  4. 点击“搜索”按钮
  5. 进入结果页后找到“价格排序”选项
  6. 选择“从低到高”

每一步都由AI自主判断和执行,过程中还会不断检查界面变化,确保操作正确无误。

2.4 动作执行:AI是怎么“动手”的?

所有操作最终通过ADB(Android Debug Bridge)实现。这是安卓官方提供的调试工具,允许电脑控制手机。Open-AutoGLM 利用 ADB 发送以下指令:

  • Tap(x, y):在指定坐标点击
  • Swipe(x1, y1, x2, y2):滑动操作
  • Type("文字"):输入文本
  • Launch(package_name):启动某个App
  • Back()/Home():模拟返回键或主页键

由于这些是系统级操作,AI几乎可以做任何你能手动完成的事情。


3. 如何连接你的手机?三步搞定本地配置

要让 Open-AutoGLM 控制你的手机,需要先完成一些准备工作。别担心,虽然听起来有点技术感,但我们一步步来,保证你能跟上。

3.1 准备工作清单

你需要准备以下几样东西:

项目要求
电脑Windows 或 Mac,建议Python 3.10以上
手机Android 7.0 及以上版本的真实设备或模拟器
数据线用于USB连接(可选)
ADB工具Android调试桥接程序

3.2 安装ADB并配置环境

ADB 是连接电脑和手机的关键工具。安装方法如下:

Windows 用户:
  1. 下载 Platform Tools 并解压。
  2. 将解压后的文件夹路径添加到系统环境变量中:
    • Win + R,输入sysdm.cpl
    • 点击“高级” → “环境变量”
    • 在“系统变量”里找到Path,点击“编辑”
    • 添加ADB所在目录路径(如C:\platform-tools
  3. 打开命令行,输入adb version,如果显示版本号说明安装成功。
Mac 用户:

在终端运行以下命令(假设你把 platform-tools 放在 Downloads 文件夹):

export PATH=${PATH}:~/Downloads/platform-tools

之后也可以用adb version验证是否安装成功。

3.3 手机端设置:开启开发者权限

为了让电脑控制手机,必须开启两个关键设置:

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示已开启开发者模式。

  2. 开启USB调试
    返回设置主菜单 →「开发者选项」→ 勾选“USB调试”。

  3. 安装ADB Keyboard(重要!)
    下载并安装 ADB Keyboard APK。
    安装后进入「语言与输入法」设置,将默认输入法切换为 ADB Keyboard。
    这是为了让AI能够输入文字,否则无法完成搜索、填写表单等操作。


4. 部署控制端:让AI接管手机

现在我们已经准备好硬件环境,接下来要下载 Open-AutoGLM 的控制代码,在本地电脑上运行。

4.1 下载项目代码

打开命令行工具(Windows PowerShell 或 Mac Terminal),依次执行:

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖包 pip install -r requirements.txt pip install -e .

这一步完成后,你就拥有了本地的控制程序。

4.2 连接手机设备

确保手机通过USB连接电脑,或者在同一WiFi下进行无线连接。

方法一:USB连接(推荐新手)

插上数据线后,在命令行输入:

adb devices

你会看到类似这样的输出:

List of devices attached AERFUT4B08000806 device

只要有设备ID出现且状态为device,说明连接成功。

方法二:WiFi无线连接(适合远程控制)

如果你不想一直连着线,可以用WiFi连接:

  1. 先用USB连接手机,然后运行:
    adb tcpip 5555
  2. 断开USB线,在命令行输入:
    adb connect 192.168.x.x:5555
    (把192.168.x.x替换为你手机的实际IP地址)

再次运行adb devices查看是否连接成功。


5. 让AI开始干活:一句话启动自动化

一切准备就绪,现在可以下达第一条指令了!

5.1 命令行运行示例

在 Open-AutoGLM 目录下运行以下命令:

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://你的服务器IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备ID
  • --base-url:AI模型所在的服务器地址(公网IP+端口)
  • --model:使用的模型名称
  • 最后的字符串:你要下达的自然语言指令

只要你有可用的模型服务(无论是自己部署还是使用云端接口),这条命令就能立即执行。

5.2 如果没有GPU服务器怎么办?

你可能会问:“我没有H800显卡,也没有服务器,能用吗?”

答案是:可以!

Open-AutoGLM 支持在 Apple M2/M3 芯片的 Mac 上本地运行。虽然速度比不上高端GPU,但对于日常轻量任务完全够用。

在Mac上本地运行的方法:
  1. 下载模型并进行4-bit量化压缩(节省内存):
huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit
  1. 启动本地推理:
python main.py --local --model ./models/autoglm-9b-4bit "打开微信"

这样就不依赖外部服务器,所有数据都在本地处理,更加安全私密。


6. 实际应用场景:AI能帮你做什么?

别以为这只是个玩具。Open-AutoGLM 已经能在很多真实场景中发挥作用。

6.1 日常生活自动化

  • “帮我查一下今天北京到上海的高铁票”
  • “打开美团,订一家评分4.5以上的川菜馆”
  • “把上周的照片上传到百度网盘”
  • “定时每天早上8点打开健康码小程序截图保存”

这些原本需要你手动操作几分钟的任务,现在一句话就能完成。

6.2 内容创作者的好帮手

  • “打开小红书,搜索‘穿搭推荐’,收藏前10条笔记”
  • “批量点赞我关注的博主最新发布的5条动态”
  • “把我剪辑好的视频发布到抖音,标题写‘今日份OOTD’”

再也不用手动刷屏、重复操作,提升效率不是一点点。

6.3 企业测试工程师的新工具

某公司用 Open-AutoGLM 对一款名为“港话通”的AI助手App进行全面测试,任务指令是:

“你是一个大模型测试工程师,你需要对港话通进行测试……如果模型返回的内容有问题你要记得提bug。”

结果AI自动完成了四大功能验证:

功能是否成功关键动作
天气查询输入日期、获取温度湿度等详细数据
到站功能查询路线、AI反问目的地以优化建议
法律咨询提问“香港法定年龄”,获得完整法律依据
交通查询列出9种主要交通方式及使用场景

整个过程无需人工干预,AI不仅执行操作,还能判断结果是否合理,发现异常时自动截图上报。


7. 安全机制:AI不会乱来

你可能担心:AI会不会误操作支付、泄露隐私?

Open-AutoGLM 设计了多重安全保障:

7.1 敏感操作人工接管

当进入银行App、支付页面或验证码输入界面时,AI会自动停止执行,并输出:

{"action": "Take_over"}

意思是:“这里太敏感了,请你自己来操作。”
等你完成验证后,再交还给AI继续后续流程。

7.2 远程调试与监控

支持通过WiFi远程连接设备,开发者可以在办公室调试家里的手机,或者为企业提供集中化管理方案。

同时所有操作日志都会记录下来,包括每一步的思考过程和执行动作,方便追溯和审计。


8. 总结:人人都能用的AI自动化时代来了

Open-AutoGLM 正在打破一个长久以来的技术壁垒:自动化不该只属于程序员

过去,手机自动化需要编写复杂的脚本,学习UiAutomator、Appium等工具,门槛极高。而现在,只要你能说出一句话,AI就能替你完成所有操作。

它的意义不仅在于“省事”,更在于开启了意图驱动的智能交互新时代

  • 以前:你必须学会怎么操作手机
  • 现在:你只需要表达你想做什么,剩下的交给AI

无论是个人用户想解放双手,还是企业希望提升测试效率,Open-AutoGLM 都提供了一个强大而易用的解决方案。

更重要的是,它是开源的。任何人都可以免费使用、修改、部署,真正实现了AI技术的普惠化。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/11 12:56:22

测试环境生成https自签名证书tls的步骤

# 1. 创建配置文件 cat > gitlab-cert.conf <<EOF [req] default_bits 2048 prompt no default_md sha256 distinguished_name dn req_extensions v3_req [dn] CN gitlab.devops.global-fairy.top O Global Fairy DevOps OU GitLab [v3_req] basicConstraint…

作者头像 李华
网站建设 2026/3/13 18:26:05

tar zxvf swoole.tar.gz的庖丁解牛

tar zxvf swoole.tar.gz 是一条 解压 .tar.gz 格式压缩包 的经典 Linux 命令&#xff0c;常用于源码编译前的准备工作&#xff08;如 Swoole、PHP 扩展等&#xff09;。它看似简单&#xff0c;却涉及 归档、压缩、文件系统 三大核心机制。一、命令结构拆解参数含义作用tarTape …

作者头像 李华
网站建设 2026/3/13 14:17:00

小白必看!用FSMN-VAD快速实现语音识别预处理

小白必看&#xff01;用FSMN-VAD快速实现语音识别预处理 你是不是也遇到过这样的问题&#xff1a;一段几分钟的录音里&#xff0c;真正说话的时间可能只有几十秒&#xff0c;其余全是“嗯”、“啊”、停顿和背景安静&#xff1f;如果要拿这段音频去做语音识别&#xff0c;直接…

作者头像 李华
网站建设 2026/3/13 20:47:15

微信联系作者,技术支持就在身边

微信联系作者&#xff0c;技术支持就在身边 1. 这不是普通抠图工具&#xff0c;而是一次“人对人”的技术交付 你有没有遇到过这样的情况&#xff1a; 下载了一个AI抠图项目&#xff0c;README里写着“pip install -r requirements.txt”&#xff0c;结果卡在PyTorch版本冲突…

作者头像 李华
网站建设 2026/3/12 18:46:15

基于提示词的精准控制:Qwen儿童图像生成参数调整指南

基于提示词的精准控制&#xff1a;Qwen儿童图像生成参数调整指南 1. 这不是普通画图工具&#xff0c;是专为孩子设计的“动物童话生成器” 你有没有试过这样的情景&#xff1a;孩子指着绘本说“妈妈&#xff0c;我想看一只穿雨靴的小狐狸在彩虹蘑菇上跳舞”&#xff0c;你翻遍…

作者头像 李华
网站建设 2026/3/13 6:35:39

Z-Image-Turbo支持哪些尺寸?实测1024×1024输出

Z-Image-Turbo支持哪些尺寸&#xff1f;实测10241024输出 Z-Image-Turbo不是那种“参数堆出来就完事”的模型&#xff0c;它是一把被反复打磨过的工具——快得让人意外&#xff0c;清晰得让人放心&#xff0c;用起来又特别省心。如果你试过其他文生图模型在10241024分辨率下等…

作者头像 李华