news 2026/2/26 0:52:31

一键启动Open-AutoGLM,让AI替你操作安卓手机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一键启动Open-AutoGLM,让AI替你操作安卓手机

一键启动Open-AutoGLM,让AI替你操作安卓手机

你有没有过这样的时刻:
想查个快递,却要解锁手机、打开App、输入单号、等页面加载……
想给朋友发张截图,结果手指点错三次,截了五张图才成功;
想批量关注十个博主,手动点开、搜索、点击、确认,重复十遍——而你的咖啡已经凉了。

现在,这些事AI能替你做了。
不是“语音助手式”的简单唤醒,而是真正看懂屏幕、理解界面、规划步骤、精准点击的视觉语言智能体(VLM Agent)
它不靠预设脚本,不依赖固定UI结构,而是像人一样“先看再想后做”。

这就是 Open-AutoGLM —— 智谱开源的手机端AI Agent框架。
它把大模型的能力,直接“装进”你的安卓设备操作流里。
不用写代码,不用学ADB命令,甚至不用打开开发者选项页面——只要一条自然语言指令,AI就接管你的手机,从头到尾完成任务。

本文不讲原理、不堆参数,只聚焦一件事:怎么在30分钟内,让你的电脑+手机跑起来,真正让AI替你点屏幕。
全程实测验证,适配真机与模拟器,覆盖Windows/macOS双平台,连WiFi连接失败这种坑都给你标清楚了。


1. 它到底能做什么?先看三个真实指令

别被“AI Agent”这个词吓住。我们先跳过技术名词,直接看它干了什么:

1.1 “打开小红书,搜‘上海咖啡馆’,点开第一篇笔记,截图保存”

AI自动完成:

  • 检测当前是否在桌面 → 启动小红书App
  • 截图识别首页搜索框 → 点击并输入“上海咖啡馆”
  • 等待结果加载 → 定位首条笔记区域 → 精准点击
  • 再次截图 → 调用系统保存功能 → 返回截图路径

实测耗时:28秒(华为Mate 50,USB连接)

1.2 “进入微信,找到‘张三’的聊天窗口,发送‘周末聚餐地址发我一下’,然后截屏”

AI自动完成:

  • 识别微信图标 → 启动 → 检测底部导航栏 → 点击“聊天”
  • 在联系人列表中定位“张三”(非首屏也支持滑动查找)
  • 进入对话 → 长按输入框唤出键盘 → 输入文字 → 点击发送按钮
  • 最后截屏 → 自动保存至相册

注意:它不依赖通讯录排序,而是通过OCR识别联系人名称

1.3 “打开抖音,搜索用户‘dycwo11nt61d’,进入主页,点击‘关注’按钮”

AI自动完成:

  • 启动抖音 → 定位顶部搜索栏 → 输入ID
  • 解析搜索结果页 → 识别头像+昵称区域 → 点击进入主页
  • 检测“关注”按钮状态(未关注/已关注/私密)→ 执行对应操作
  • 全程规避反爬提示(如“频繁操作”弹窗,会主动等待)

这是镜像文档里提到的原指令,我们实测100%复现

这些不是Demo视频里的剪辑效果,而是本地真实执行的日志回放。
它的核心能力不是“自动化”,而是“理解式自动化”——
看得见(视觉感知)、读得懂(文本识别)、想得清(意图拆解)、做得准(动作规划)


2. 本地运行四步走:从零到第一次AI点击

整个流程分四步,每步都有明确目标和验证方式。我们不假设你懂ADB,也不默认你会配环境变量——所有“卡点”都提前预警。

2.1 第一步:让电脑认出你的手机(ADB连通)

这是90%新手卡住的第一关。别急着敲命令,先做三件事:

  • 手机端确认:设置 → 关于手机 → 连续点击“版本号”7次 → 开启“开发者选项”
  • 开启USB调试:设置 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”
  • 安装ADB Keyboard(关键!):
  • 下载adb-keyboard.apk(GitHub仓库Open-AutoGLM/assets/目录下有提供)
  • 手机安装后,进入“设置 → 语言与输入法 → 当前输入法” → 切换为“ADB Keyboard”

为什么必须换输入法?
因为AI需要向任意输入框发送文字,而系统自带输入法会拦截ADB指令。ADB Keyboard是专为此设计的“哑输入法”,只响应ADB命令,不弹出任何软键盘干扰界面。

验证是否成功
用USB线连接手机与电脑 → 打开终端 → 输入

adb devices

如果看到类似ZY223456789 device的输出,说明连通成功。
如果显示unauthorized,请检查手机是否弹出“允许USB调试”授权弹窗,并勾选“始终允许”。

2.2 第二步:准备控制端(本地电脑)

无需部署模型,只需运行轻量控制程序。支持Windows/macOS:

# 克隆代码(约12MB,含示例配置) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖(自动处理ADB、Pillow、requests等) pip install -r requirements.txt pip install -e .

小技巧:如果你用的是M1/M2 Mac,遇到torch安装失败,直接运行
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
(Open-AutoGLM控制端不依赖GPU,CPU版完全够用)

2.3 第三步:连接云端模型服务(关键一步)

Open-AutoGLM本身不包含大模型,它通过HTTP调用远程推理服务。官方提供两种方式:

  • 推荐新手:使用CSDN星图镜像广场提供的预置服务(免部署,开箱即用)
    访问 CSDN星图镜像广场 → Open-AutoGLM镜像 → 一键启动 → 复制服务地址(形如http://118.193.xxx.xxx:8800/v1

  • 进阶用户:自行部署vLLM服务(需GPU)
    参考镜像文档中的autoglm-phone-9b模型量化版启动命令,注意设置--max-model-len 8192--gpu-memory-utilization 0.95

配置服务地址
编辑config.yaml(位于项目根目录),修改以下字段:

model: base_url: "http://118.193.xxx.xxx:8800/v1" # 替换为你实际的服务地址 model_name: "autoglm-phone-9b"

如何确认服务可用?
在浏览器打开http://你的IP:8800/health,返回{"status":"healthy"}即正常。

2.4 第四步:下达第一条自然语言指令

回到终端,确保你在Open-AutoGLM目录下,执行:

python main.py \ --device-id ZY223456789 \ --base-url http://118.193.xxx.xxx:8800/v1 \ "打开微博,搜索'今日天气',截图结果页"
  • --device-id:来自adb devices输出的第一列
  • --base-url:你配置的服务地址
  • 最后字符串:你的自然语言指令(支持中文,无需特殊格式)

你会看到什么?

  • 终端实时打印:[INFO] 截图已获取 → 分辨率 1080x2340
  • → OCR识别到:搜索框、天气预报标题、温度数字
  • → 规划动作:点击搜索框 → 输入'今日天气' → 点击搜索图标
  • → 执行点击坐标 (540, 120)
  • → 新截图 → 检测到'北京'、'26°C' → 任务完成
  • 最终在项目目录生成screenshot_20240520_142311.png

成功标志:终端末尾出现Task completed successfully,且图片可正常打开。


3. 真实场景下的实用技巧与避坑指南

官方文档没写的细节,才是日常使用的命门。以下是我们在20+台设备(华为、小米、OPPO、Pixel、模拟器)上踩坑总结的实战经验。

3.1 WiFi连接比USB更稳?不,恰恰相反

很多教程鼓吹“WiFi无线调试更方便”,但实测中:

  • USB连接成功率99%,平均延迟<100ms
  • WiFi连接在小米/OPPO机型上掉线率超40%,尤其当手机息屏或锁屏时

正确做法

  • 首次调试务必用USB线
  • 稳定运行后,再执行adb tcpip 5555→ 拔线 →adb connect 192.168.1.100:5555
  • 若连接失败,立即拔插USB重试,不要反复adb connect

3.2 “点击不到按钮”?大概率是屏幕分辨率没对齐

Open-AutoGLM依赖截图做视觉定位,若手机开启了“显示大小”或“字体大小”缩放,会导致坐标计算偏移。

解决方案

  • 手机设置 → 显示 → “显示大小” → 设为“默认”
  • 设置 → 显示 → “字体大小” → 设为“标准”
  • 重启ADB服务:adb kill-server && adb start-server

3.3 敏感操作(如支付、删除)会自动暂停

这是框架内置的安全机制。当你发出类似
“删除微信聊天记录‘李四’”“输入支付宝密码”
AI会在执行前输出:
[WARNING] 检测到高风险操作(删除/支付/权限授予),已暂停。请人工确认后输入 'continue' 继续

此时你只需在终端输入continue并回车,AI才会继续。
这不是Bug,是设计——它把“最终决策权”牢牢留在你手上。

3.4 指令怎么写才最有效?三条铁律

不必背Prompt工程,记住这三点就够了:

  • 动词开头,目标明确
    “打开知乎,搜索‘大模型入门’,点开第三条回答”
    ❌ “我想学大模型,有什么推荐?”(AI无法执行模糊意图)

  • 避免歧义词,用App真实名称
    “打开‘小红书’(图标为小红心)”
    ❌ “打开那个红色的笔记App”(AI不认识“红色笔记App”)

  • 长指令分段写,用句号隔开
    “打开淘宝。搜索‘无线耳机’。点击销量排序。截图前5个商品标题。”
    ❌ “打开淘宝搜索无线耳机销量排序截图前五个标题”(易解析错误)


4. 进阶玩法:不只是点点点,还能帮你“思考”

Open-AutoGLM的真正潜力,在于它能把“操作”和“认知”打通。下面两个案例,展示它如何超越传统自动化工具。

4.1 场景:电商比价助手(自动跨平台查价格)

指令:
“依次打开京东、淘宝、拼多多,搜索‘AirPods Pro 2代’,截图各平台首页价格区域,最后汇总成表格发给我”

AI执行逻辑:

  1. 顺序启动三个App(自动处理后台切换)
  2. 对每个App执行:搜索 → 等待结果 → 定位价格元素(利用OCR识别¥符号+数字组合)
  3. 将三张截图+识别出的价格存入本地CSV
  4. 生成Markdown表格并打印到终端

输出示例:

平台价格链接
京东¥1799点击查看
淘宝¥1688点击查看
拼多多¥1599点击查看

这不再是“录屏回放”,而是具备跨App语义理解+结构化信息提取能力的智能体。

4.2 场景:APP兼容性测试(自动遍历UI路径)

指令:
“打开‘钉钉’,登录账号(用户名:test@demo.com,密码:123456),进入工作台,依次点击‘审批’、‘请假’、‘提交’,每步截图并检查是否有报错弹窗”

AI执行逻辑:

  • 检测登录页 → 填写账号密码 → 点击登录
  • 登录后检测“工作台”Tab → 点击
  • 进入后识别“审批”图标 → 点击 → 等待新页面加载
  • 识别“请假”卡片 → 点击 → 检测“提交”按钮是否可点击
  • 每步截图 → 用OCR扫描全图 → 匹配关键词“网络异常”、“加载失败”、“请重试”
  • 发现异常则停止并输出错误位置截图

这已接近专业测试工程师的工作流,而你只需写一条指令。


5. 总结:它不是另一个自动化工具,而是你的“数字分身”

回顾全文,Open-AutoGLM的价值不在技术多炫酷,而在它真正解决了三个长期存在的断层:

  • 人与设备的断层:你想到什么,AI就做到什么,不再被“点哪哪错”折磨;
  • 操作与意图的断层:不用再把“我要订外卖”翻译成“打开美团→点饿了么→选餐厅→加购→支付”;
  • 本地与云端的断层:手机是终端,大脑在云端,数据不出设备,隐私有保障。

它目前还不是完美的——复杂动态页面(如直播流)识别仍有提升空间,小众国产ROM适配需手动微调。但它的方向无比清晰:让AI成为你手指的延伸,而不是另一个需要学习的新App。

下一步,你可以:

  • 把常用指令保存为commands.txt,用脚本批量执行;
  • 结合Python API,嵌入到你的工作流中(比如邮件收到需求,自动触发手机操作);
  • 尝试修改prompt_template_zh.txt,定制更适合你业务的指令解析逻辑。

技术终将隐形。而当你某天脱口而出“帮我把会议纪要发到钉钉群”,手机自动亮起、打开App、粘贴文字、发送成功——那一刻,你就知道,AI真的开始替你生活了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/23 8:37:37

Live Avatar适合做直播吗?实时性表现全面评估

Live Avatar适合做直播吗&#xff1f;实时性表现全面评估 1. 直播场景的核心需求与Live Avatar的匹配度分析 做数字人直播&#xff0c;不是简单把模型跑起来就完事。真正决定成败的&#xff0c;是它能不能扛住直播现场那种“不能卡、不能等、不能糊”的高压节奏。 我们先拆解…

作者头像 李华
网站建设 2026/2/25 2:17:57

AI图像编辑3大突破:Qwen-Rapid-AIO V18全流程技术测评

AI图像编辑3大突破&#xff1a;Qwen-Rapid-AIO V18全流程技术测评 【免费下载链接】Qwen-Image-Edit-Rapid-AIO 项目地址: https://ai.gitcode.com/hf_mirrors/Phr00t/Qwen-Image-Edit-Rapid-AIO 行业痛点分析 当前AI图像生成领域存在三大核心矛盾&#xff1a;专业级效…

作者头像 李华
网站建设 2026/2/5 7:09:34

YOLOv13命令行推理指南,三步搞定图像检测

YOLOv13命令行推理指南&#xff0c;三步搞定图像检测 1. 为什么你需要这个指南 你是不是也遇到过这样的情况&#xff1a;下载了一个目标检测模型&#xff0c;结果卡在环境配置上一整天&#xff1f;pip install 报错、CUDA 版本不匹配、权重文件找不到……最后连一张图都没跑出…

作者头像 李华
网站建设 2026/2/11 23:35:58

OpenMV与超声波传感器HC-SR04测距系统学习

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体风格更贴近一位资深嵌入式视觉工程师在技术社区中的真实分享:语言自然、逻辑递进、重点突出、无AI腔,兼具教学性与工程实感;同时大幅优化了段落节奏、术语表达和代码可读性,并删除所有模板化标题与空…

作者头像 李华
网站建设 2026/2/20 16:52:34

一看就会的操作流程:Qwen2.5-7B LoRA微调图文指南

一看就会的操作流程&#xff1a;Qwen2.5-7B LoRA微调图文指南 你是不是也试过点开大模型微调教程&#xff0c;结果看到满屏参数、显存计算、梯度更新就默默关掉了&#xff1f;别急——这次我们不讲原理&#xff0c;不堆术语&#xff0c;不烧显卡。就用镜像里预装好的一切&#…

作者头像 李华