news 2026/3/24 10:23:29

亲测Open-AutoGLM,用自然语言自动操作手机真香了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM,用自然语言自动操作手机真香了

亲测Open-AutoGLM,用自然语言自动操作手机真香了

你有没有过这样的时刻:
手指划到酸痛,还在反复点开APP、输入关键词、翻页找商品;
想订个外卖,却卡在“选规格→加小料→确认地址→比价”这一连串操作里;
或者只是想快速关注一个博主,结果在抖音里来回跳转、输ID、点关注,三步操作花了二十秒——而你真正想做的,其实就一句话:“帮我关注抖音号dycwo11nt61d”。

现在,这句话就够了。

我刚用智谱开源的Open-AutoGLM框架,让我的安卓手机真正听懂了人话。它不靠预设脚本,不依赖固定界面,而是看懂屏幕、理解意图、自主规划、精准点击——整个过程像有个真人坐在我旁边,替我完成所有手机操作。

这不是概念演示,也不是实验室Demo。这是我昨天在办公室实测的真实体验:从零部署到成功下单麦当劳巨无霸,全程不用碰一次手机屏幕。

下面,我就以一个普通开发者(非算法工程师)的身份,把整个过程拆解清楚。不讲模型结构,不谈多模态对齐,只说:怎么装、怎么连、怎么用、效果到底行不行


1. 它到底是什么?一句话说清

Open-AutoGLM 不是一个APP,也不是一个手机插件。它是一套运行在电脑端的AI代理框架,核心能力只有两个:

  • 看得懂:通过实时截图分析当前手机屏幕内容(文字、按钮、图标、布局);
  • 做得对:把你的自然语言指令(比如“打开小红书搜美食”),拆解成一连串ADB命令(点击坐标、滑动、输入文字、返回上一页),自动执行。

它背后调用的是智谱发布的AutoGLM-Phone-9B视觉语言模型,但你完全不需要自己跑大模型——只要有一台能跑vLLM的云服务器(或本地显卡),再配一台普通安卓手机,就能立刻用起来。

最关键的是:它不越狱、不Root、不修改系统,只用官方ADB调试通道。这意味着——安全、合规、可随时中断。


2. 真机连接前的四步准备(小白友好版)

别被“ADB”“TCP/IP”这些词吓住。我用的是2021款红米Note10,Android 12,整个过程没查一次文档,全靠直觉+试错。下面这四步,每一步我都标出了“最容易卡住的坑”。

2.1 手机端:三分钟开启调试权限

  • 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(数着点,别手抖),直到弹出“您已处于开发者模式”。
  • 开启USB调试:设置 → 额外设置 → 开发者选项 → 打开“USB调试”。注意:有些手机这里还藏着“USB调试(安全设置)”,也一并打开。
  • 安装ADB Keyboard(必须!):这是整个流程里最常被忽略的一步。
    下载地址在GitHub仓库的docs/adb-keyboard.apk,安装后去“设置 → 语言与输入法 → 当前键盘”,手动切换为“ADB Keyboard”。
    验证方法:在任意输入框长按,如果弹出“选择输入法”且能看到ADB Keyboard,就成功了。

小贴士:如果你跳过这步,程序会报错“无法输入文字”,但错误提示很隐晦。我第一次就在这里卡了40分钟。

2.2 电脑端:ADB环境,一行命令搞定

  • Windows/macOS都支持。我用Mac,直接下载Android SDK Platform-Tools,解压后终端执行:
    export PATH=$PATH:~/Downloads/platform-tools
  • 验证是否生效:
    adb version # 输出类似:Android Debug Bridge version 34.0.5

常见坑:Windows用户如果用PowerShell,记得用$env:Path += ";C:\path\to\platform-tools",别用cmd的语法。

2.3 连接方式选哪个?推荐优先用USB

方式速度稳定性设置难度推荐场景
USB线直连★★★★★★★★★★★☆☆☆☆首次测试、调试阶段
WiFi远程★★★☆☆★★☆☆☆★★★★☆固定办公位、多设备管理

我建议:先用USB跑通,再切WiFi。因为WiFi需要先用USB执行adb tcpip 5555,断开后再连IP,中间任何一步失败都会导致“设备离线”。

2.4 检查连接状态:一眼看懂

插上手机(开启USB调试),在终端敲:

adb devices

正常输出应该是:

List of devices attached ZY322KDLF8 device

有device字样,说明手机已被识别。
❌如果显示unauthorized,请在手机上点“允许USB调试”。
❌如果空白,检查USB线(换根线试试)、电脑USB口(换前置/后置)、驱动(Windows需装ADB驱动)。


3. 控制端部署:三行命令,1分钟装完

Open-AutoGLM的控制端代码极轻量,全部在本地电脑运行,不占手机资源。

3.1 克隆+安装(全程联网,无需编译)

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM python3 -m venv .venv source .venv/bin/activate # Windows用 .venv\Scripts\activate pip install -r requirements.txt pip install -e .

实测耗时:47秒(M2 Mac,网络良好)。requirements里没有CUDA依赖,纯CPU也能跑(只是调用云端模型,本地只做指令调度)。

3.2 验证部署:一条命令测通路

假设你的云服务器IP是10.1.21.133,vLLM服务映射端口是8000,模型名是autoglm-phone-9b,运行:

python scripts/check_deployment_cn.py \ --base-url http://10.1.21.133:8000/v1 \ --model autoglm-phone-9b

看到输出{"status": "success", "message": "Model is ready"},就代表云端模型通了。

如果报错Connection refused,90%是云服务器防火墙没放行8000端口。用ufw allow 8000(Ubuntu)或安全组补全规则即可。


4. 第一次真机操作:从“打开抖音”到“关注博主”

这才是最激动人心的部分。我们跳过所有理论,直接上手。

4.1 最简指令:打开一个APP

确保手机已连接,ADB识别成功,执行:

python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音"

你会看到:

  • 终端开始滚动日志:“正在截图… 识别到‘抖音’图标… 计算点击坐标… 执行tap…”
  • 手机屏幕瞬间亮起,自动点亮、解锁(如果锁屏)、找到抖音图标、点击进入。

整个过程约8秒(含截图传输+模型推理+ADB执行)。比我手动找图标快3秒。

4.2 进阶指令:带搜索的完整链路

试试这句:

python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

它做了什么?

  1. 打开抖音 → 点击搜索框 → 输入dycwo11nt61d→ 点击搜索;
  2. 在结果页识别“用户”标签 → 找到头像和昵称匹配的账号;
  3. 点击进入主页 → 识别“关注”按钮 → 点击。

我录了屏,整个流程12.3秒,无误操作。关注成功后,手机弹出“已关注”提示。

关键洞察:它不是靠“找文字”硬匹配,而是理解语义。“抖音号为XXX”被准确解析为“在用户搜索结果中定位该ID对应的账号”,哪怕ID藏在个人简介里,它也能跨页面追踪。

4.3 复杂任务:美团点单实战

这才是检验真实能力的时刻。我给的指令是:

“在美团上点个麦当劳巨无霸”

执行命令:

python main.py \ --device-id ZY322KDLF8 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在美团上点个麦当劳巨无霸"

它完成了:

  • 打开美团 → 点击首页搜索框 → 输入“麦当劳” → 点击第一个店铺;
  • 滑动菜单 → 识别“巨无霸”文字 → 点击进入商品页;
  • 识别“加入购物车”按钮 → 点击 → 弹出规格选择 → 自动选“标准” → 点击“确定”;
  • 跳转购物车 → 点击“去结算” → 停在支付页(此处触发人工接管,因涉及支付安全)。

从打开APP到加购成功,共27秒。中间没有一次误点、没有一次返回重来。

注意:支付环节它主动暂停,并在终端提示“检测到敏感操作(支付),已暂停,按回车继续”。这是内置的安全机制,非常务实。


5. 实测效果深度观察:它强在哪?弱在哪?

我连续测试了12个不同指令,覆盖电商、社交、工具、生活类APP。以下是真实反馈,不吹不黑。

5.1 三大惊艳之处

  • 界面泛化能力强
    同一个“微信扫一扫”,在微信主界面、聊天窗口、公众号文章里,图标位置、样式完全不同。但它每次都能准确定位,不依赖固定坐标。

  • 指令容错率高
    我试过说“给我搜一下小红书上的咖啡探店”,它自动理解为“打开小红书→点搜索→输入‘咖啡探店’→点搜索”。
    甚至说“那个蓝色图标叫啥”,它先识别屏幕所有蓝色图标,再读取旁白文字,返回“小红书”。

  • 多步操作不迷路
    “打开淘宝,搜iPhone15,点销量排序,选价格最低的,加购”——它真的走完了全部5步,且在“销量排序”按钮被折叠时,主动先点“更多筛选”,再找排序项。

5.2 当前明显短板(实测发现)

  • 动态加载内容识别延迟
    在小红书刷新瀑布流时,它有时会截到“加载中”画面,导致下一步等待超时。建议加--timeout 30参数延长等待。

  • 小字体/模糊图标识别不准
    微信聊天里的“拍一拍”文字太小,它曾误判为“收藏”。解决方案:提前用adb shell wm density 320调高手机DPI,让文字更清晰。

  • 横屏APP支持待优化
    B站横屏播放页,它偶尔把“点赞”按钮坐标算偏。临时方案:加--orientation portrait强制竖屏操作。


6. 安全与边界:它不会做什么?

很多人第一反应是:“这会不会偷偷删我微信?”
答案很明确:不会,也不可能

  • 所有ADB命令都在你本地电脑生成,你随时可Ctrl+C中断;
  • 每次执行敏感操作(安装APP、删除应用、发送短信、支付)前,终端必停顿并提示;
  • 它没有获取通讯录、短信、定位的权限——ADB本身就不提供这些接口;
  • 远程WiFi连接需你主动执行adb connect,断开即失效,无后台驻留。

你可以把它理解为:一个只听你语音指挥、每步都向你汇报、关键动作要你点头的数字助理。它强大,但完全可控。


7. 总结:这不是未来,是今天就能用的生产力工具

Open-AutoGLM 没有颠覆手机交互,但它实实在在地抹平了一条鸿沟:
把“我想做什么”的模糊意图,变成“手机立刻执行”的确定动作。

它不适合替代所有操作——你不会用它来打游戏、修图、写长文。
但它绝对适合:
批量处理重复任务(比如每天定时刷10个APP签到);
辅助视障用户操作手机(配合TalkBack,把界面描述转为语音);
测试工程师做UI回归(一句“登录后进个人中心,检查头像是否显示”自动生成测试流);
老年人远程协助(子女在电脑端输入“帮爸打开健康码”,手机自动执行)。

最让我意外的,是它的“接地气”。
没有炫技的3D渲染,没有复杂的配置面板,就是一行命令、一句中文、一次点击——然后,事情就成了。

如果你也厌倦了在手机上反复点点点,不妨花30分钟,按这篇教程搭起来。
当你第一次说出“打开小红书搜美食”,看着手机自动完成全部操作时,那种“原来真能这样”的爽感,值得所有折腾。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 15:09:40

ESP32开发板安装故障排除与技术问题解决指南

ESP32开发板安装故障排除与技术问题解决指南 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 在嵌入式开发过程中,ESP32开发板的安装配置往往是项目启动的第一道关卡。本文将通…

作者头像 李华
网站建设 2026/3/16 0:32:47

如何通过Open XML SDK实现文档自动化与开发效率提升?

如何通过Open XML SDK实现文档自动化与开发效率提升? 【免费下载链接】Open-XML-SDK Open XML SDK by Microsoft 项目地址: https://gitcode.com/gh_mirrors/op/Open-XML-SDK 在现代办公自动化领域,Office文档处理已成为企业信息化建设的重要组成…

作者头像 李华
网站建设 2026/3/9 17:05:15

AI办公实战:用UI-TARS-desktop打造智能工作流

AI办公实战:用UI-TARS-desktop打造智能工作流 你有没有想过,有一天只需要动动嘴,电脑就能自动帮你整理表格、打开文件、搜索资料,甚至完成一整套复杂的操作流程?听起来像科幻电影,但今天,这一切…

作者头像 李华
网站建设 2026/3/24 13:03:34

AI视频修复:3个秘诀让模糊视频变高清,零基础也能上手

AI视频修复:3个秘诀让模糊视频变高清,零基础也能上手 【免费下载链接】video2x A lossless video/GIF/image upscaler achieved with waifu2x, Anime4K, SRMD and RealSR. Started in Hack the Valley II, 2018. 项目地址: https://gitcode.com/gh_mir…

作者头像 李华