news 2026/4/26 5:40:32

原来这么简单!Open-AutoGLM手机自动化初体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
原来这么简单!Open-AutoGLM手机自动化初体验

原来这么简单!Open-AutoGLM手机自动化初体验

摘要:本文带你用最轻快的方式上手智谱开源的 Open-AutoGLM 手机 AI 助理框架。不讲原理、不堆参数,只聚焦“怎么连”“怎么动”“怎么用”,从第一次连接手机到成功执行指令,全程实操无断点。Mac 和 Windows 用户均可照着做,15 分钟内完成首次任务。


1. 这不是遥控器,是你的手机新大脑

1.1 一句话说清它能干啥

Open-AutoGLM 不是另一个需要你手动点选、配置、调试的开发工具——它是一个真正听懂人话、看懂屏幕、自己动手的手机智能助理。

你不需要写代码,不用学 ADB 命令,更不用理解什么是 VLM 或 KV Cache。你只需要像对朋友说话一样,输入一句:

“打开小红书,搜‘上海咖啡馆’,点开第一个笔记,截图发给我”

它就会自动:

  • 截取当前手机屏幕
  • 看懂界面上哪些是图标、哪些是搜索框、哪些是列表项
  • 点开小红书 App
  • 找到搜索栏并输入文字
  • 点击搜索结果中的第一条
  • 等待页面加载完成
  • 截图并返回给你

整个过程无需你碰一下手机。

1.2 它和普通自动化工具最大的不同

对比维度传统脚本(如 Auto.js)Open-AutoGLM
操作前提必须提前知道按钮坐标或控件 ID看图识图,动态识别界面元素
语言交互写死逻辑,改需求就得改代码自然语言指令,随时换说法
跨 App 能力每个 App 需单独适配同一套模型,通吃微信、抖音、淘宝等主流应用
异常应对遇到弹窗/新页面就卡死能识别登录页、验证码页,主动暂停并提示接管
上手门槛需要 JavaScript 基础只需会打字、会连 USB 线

它不是“更高级的脚本”,而是把手机变成了一个可对话、可委托任务的伙伴。


2. 三步连上,五步跑通:极简部署流程

2.1 准备工作:只要三样东西

你不需要服务器、不需要显卡、不需要 Docker。只需准备:

  • 一台安卓手机(Android 7.0+,真机或模拟器均可)
  • 一台电脑(Windows/macOS,有 USB 接口或 WiFi)
  • 一根能传数据的 USB 线(别用仅充电线!)

小贴士:如果你用的是华为、小米、OPPO 等品牌手机,开发者选项路径略有不同,但核心步骤一致——“关于手机 → 多次点击版本号 → 开启开发者模式 → 开启 USB 调试”。

2.2 第一步:让电脑认识你的手机

在电脑终端(Windows 用 PowerShell / CMD,macOS 用 Terminal)中运行:

adb devices

如果看到类似输出,说明连接成功:

List of devices attached ABCDEF1234567890 device

如果显示空列表或unauthorized,请检查:

  • 手机是否弹出“允许 USB 调试?”授权框(勾选“始终允许”)
  • 数据线是否支持数据传输(可尝试换一根线或换 USB 口)
  • 是否开启了“USB 安装”和“USB 调试”(部分手机还需开启“网络共享”或“文件传输模式”)

2.3 第二步:装一个“远程键盘”

Open-AutoGLM 要往手机里输文字(比如搜索关键词),但默认输入法无法通过 ADB 控制。所以我们要装一个叫ADB Keyboard的轻量输入法。

  • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
  • 用 USB 线安装:
    adb install ADBKeyboard.apk
  • 手机设置中启用它:
    设置 → 语言与输入法 → 管理键盘 → 启用 ADB Keyboard

验证是否生效:

adb shell ime list -a | grep ADB

应输出类似:com.android.adbkeyboard/.AdbIME

2.4 第三步:拉代码、装依赖、跑起来

在电脑上执行以下命令(全程复制粘贴即可):

# 1. 克隆项目(约 2MB,秒下) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装基础依赖(Python 3.10+) pip install -r requirements.txt pip install -e . # 3. 直接运行(无需下载模型,先走通流程!) python main.py --device-id $(adb devices | sed -n '2p' | awk '{print $1}') "打开设置"

注意:上面这行命令中$(adb devices | sed -n '2p' | awk '{print $1}')是自动获取你设备 ID 的快捷写法。如果你用的是 Windows,可先运行adb devices查看设备 ID,再手动替换--device-id后面的内容。

你会看到终端开始滚动日志,几秒后手机屏幕自动亮起、跳转到“设置”页面——首次自动化成功!


3. 从“试试看”到“天天用”:真实任务实战

3.1 先试试这几个零门槛指令

下面这些指令,我们实测在主流安卓机型(小米、华为、三星、Pixel)上全部一次成功,无需任何修改:

# 场景1:快速打开常用 App python main.py --device-id YOUR_DEVICE_ID "打开微信" # 场景2:带搜索的完整流程(含输入+点击) python main.py --device-id YOUR_DEVICE_ID "打开抖音,搜索‘AI 教程’,点第一个视频播放" # 场景3:跨 App 协作(先开地图,再分享位置) python main.py --device-id YOUR_DEVICE_ID "打开高德地图,搜索‘北京西站’,点击分享,选择微信发送给张三" # 场景4:带条件判断的复杂指令(它会自动识别弹窗) python main.py --device-id YOUR_DEVICE_ID "打开淘宝,搜索‘无线耳机’,按销量排序,点进第一个商品,加入购物车"

提示:第一次运行稍慢(约 10–20 秒),因为要加载模型和初始化环境;后续指令响应明显加快。

3.2 为什么它能“看懂”屏幕?——你不需要知道,但值得了解

Open-AutoGLM 并不是靠猜,也不是靠固定坐标。它每执行一步前,都会做两件事:

  1. 截一张图:用adb shell screencap -p获取当前屏幕 PNG
  2. 读一份结构化描述:用adb shell uiautomator dump获取当前界面所有按钮、文本框、列表项的位置和文字

然后把这两样东西一起喂给模型。就像你一边看手机截图,一边读它的“界面说明书”,自然就知道该点哪、该输什么。

所以哪怕 App 更新了 UI,只要文字没变、关键按钮还在,它依然能认出来。

3.3 遇到登录页、验证码怎么办?

它不会硬闯。系统内置了敏感操作确认机制

  • 当检测到“密码输入框”“短信验证码”“支付确认页”时,会自动暂停,并在终端打印:
    检测到登录页,请手动完成验证。完成后按回车继续...

  • 你只需拿起手机,输完密码或填好验证码,再回到电脑按一下回车,它就接着往下跑。

这个设计不是为了“省事”,而是为了安全可控——它永远把你放在决策环路里。


4. 进阶但不复杂:WiFi 远控、批量任务、自定义提醒

4.1 拔掉 USB 线,用 WiFi 远程控制

不想被线捆着?完全支持无线控制。

只需两步:

  1. 先用 USB 连接一次,开启无线调试:
    adb tcpip 5555
  2. 断开 USB,连上同一 WiFi 后,用手机 IP 连接:
    adb connect 192.168.1.100:5555 # 替换成你手机的真实 IP

查看手机 IP 方法:设置 → WLAN → 点击当前网络 → 查看 IP 地址
验证是否连上:adb devices应显示192.168.1.100:5555 device

之后所有指令都可直接加--device-id 192.168.1.100:5555运行,手机放桌上、你在沙发上发号施令,毫无压力。

4.2 一次安排多个任务:批量执行不费劲

你可以把它当做一个“任务队列处理器”。比如每天早上的固定动作:

# batch_tasks.py from phone_agent import PhoneAgent agent = PhoneAgent() tasks = [ "打开天气 App,截图今天温度", "打开微信,给家人发‘早安’", "打开网易云音乐,播放每日推荐歌单", "打开小红书,刷新首页" ] for i, task in enumerate(tasks, 1): print(f"\n 执行第 {i} 个任务:{task}") result = agent.run(task) print(f" 完成:{result['status']}") agent.reset() # 清空状态,为下一个任务准备

保存为batch_tasks.py,运行python batch_tasks.py即可全自动执行。

4.3 想让它“更听话”?两个回调函数就够了

你完全可以定制它的行为逻辑,而无需改源码。比如:

  • 遇到转账、支付类操作,强制弹窗确认
  • 检测到验证码页面,自动发微信消息提醒你

只需在启动时传入两个函数:

def on_sensitive_action(message: str) -> bool: print(f"🚨 高风险操作:{message}") return input("确认执行?(y/N): ").lower() == "y" def on_manual_takeover(message: str) -> None: print(f"🙋‍♂ 请人工处理:{message}") import os os.system('say "注意,手机需要你操作"') # macOS 语音提醒 agent = PhoneAgent( confirmation_callback=on_sensitive_action, takeover_callback=on_manual_takeover )

这就是真正的“可信赖自动化”——强大,但不越界。


5. 常见问题,一问一答(全是实测过的)

5.1 Q:运行报错ModuleNotFoundError: No module named 'mlx'怎么办?

A:这是 MLX 框架未安装。Mac 用户请运行:

pip install mlx "git+https://github.com/Blaizzy/mlx-vlm.git@main"

Windows 用户请改用 CPU 模式(加--cpu参数),或使用 WSL2 + Ubuntu 环境。

5.2 Q:手机屏幕一闪就黑,或者截图是纯黑?

A:这是系统级截图限制(常见于银行、支付、隐私类 App)。Open-AutoGLM 会自动识别并触发人工接管,无需担心。日常使用微信、抖音、淘宝等 App 完全不受影响。

5.3 Q:中文输入不了,总打出乱码或英文?

A:请再次确认:

  • ADB Keyboard 已安装且已启用(非默认输入法)
  • 终端中运行adb shell settings get secure default_input_method应返回含adbkeyboard的字符串
  • 若仍异常,临时切回系统输入法,手动输一次字再切回来即可恢复

5.4 Q:执行到一半卡住不动了?

A:大概率是页面加载未完成。Open-AutoGLM 默认等待 8 秒,你可在启动时加参数提速:

python main.py --device-id XXX --timeout 15 "你的指令"

将超时时间从默认 8 秒延长至 15 秒,适配网速较慢或 App 启动偏慢的场景。

5.5 Q:能控制 iOS 设备吗?

A:目前仅支持安卓。iOS 因系统封闭性,暂无法通过标准协议实现同等程度的自动化。但团队已在探索基于 WebDriverAgent 的轻量方案,敬请关注后续更新。


6. 它不是玩具,而是你数字生活的延伸

6.1 我们实测过的 5 类高频场景

场景类型典型指令示例实际价值
信息获取“打开知乎,搜‘大模型入门’,把前三条回答要点整理成文字发我”省去手动翻页、截图、打字总结的时间
生活服务“打开美团,搜‘家附近修空调’,打电话给评分最高的那家”把“找+拨号”两步合并为一句
内容创作“打开小红书,搜‘春日穿搭’,保存前 5 张图片到相册”一键批量采集灵感素材
学习辅助“打开 B 站,搜‘PyTorch 教程’,播放播放量最高的视频,调到 12 分 30 秒”精准定位学习资源,跳过片头广告
家庭关怀“打开微信,给爸妈发‘今天降温,记得加衣服’,并附上天气截图”让关心变得自动化、不遗漏

它不替代你思考,而是把重复、机械、耗时的操作交出去,让你专注真正需要判断和创造的部分。

6.2 下一步,你可以这样走

  • 今天:连上手机,跑通“打开微信”指令
  • 明天:尝试一条带搜索的指令,比如“打开抖音搜 AI”
  • 本周内:配置 WiFi 远控,把手机放客厅,用笔记本远程操作
  • 下周起:用 Python API 写一个晨间播报脚本,每天自动为你汇总信息

不需要成为开发者,也能拥有属于自己的 AI 助理。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 12:56:17

IQuest-Coder-V1与Qwen-Coder对比评测:复杂工具使用场景实战

IQuest-Coder-V1与Qwen-Coder对比评测:复杂工具使用场景实战 1. 引言:当代码模型走进真实开发战场 你有没有遇到过这样的情况:写一个功能,不仅要调用API,还要解析日志、操作数据库、生成配置文件,甚至要和…

作者头像 李华
网站建设 2026/4/23 12:48:16

Whisper-large与SenseVoiceSmall对比:情感识别能力谁更强?

Whisper-large与SenseVoiceSmall对比:情感识别能力谁更强? 在语音识别技术不断演进的今天,越来越多的模型不再满足于“听清”用户说了什么,而是进一步追求“听懂”背后的语气、情绪和环境信息。尤其是在客服质检、内容审核、智能…

作者头像 李华
网站建设 2026/4/25 15:53:00

AI开发者必看:Qwen3-4B-Instruct开源模型部署趋势与优化策略

AI开发者必看:Qwen3-4B-Instruct开源模型部署趋势与优化策略 1. Qwen3-4B-Instruct-2507:新一代轻量级文本生成模型的崛起 在当前大模型快速迭代的背景下,阿里推出的 Qwen3-4B-Instruct-2507 正逐渐成为AI开发者的热门选择。这款基于40亿参…

作者头像 李华
网站建设 2026/4/17 13:46:35

适合设计师!科哥UNet镜像抠产品图实战

适合设计师!科哥UNet镜像抠产品图实战 你是不是也经常为电商主图、宣传海报或UI设计中的产品抠图头疼?手动用PS一点点描边,费时又容易出错。尤其是面对大批量商品图时,效率低到让人崩溃。 今天要介绍的这个AI工具——cv_unet_im…

作者头像 李华
网站建设 2026/4/21 4:20:52

进程级沙箱隔离技术在指纹浏览器中的实现与优化

在多账号安全运营场景中,沙箱隔离是指纹浏览器切断账号关联的核心技术支撑,而进程级隔离相较于传统标签页隔离、插件隔离,凭借更深的隔离层级和更优的安全性,已成为高风控场景的主流方案。本文从底层技术实现角度,拆解…

作者头像 李华
网站建设 2026/4/25 13:11:38

Glyph效果太震撼!长文本理解竟如此简单

Glyph效果太震撼!长文本理解竟如此简单 1. 长文本处理的瓶颈,终于被打破了? 你有没有遇到过这样的情况:一段几十页的PDF报告、一本上百万字的小说、一份复杂的法律合同,想让AI帮你总结或分析,结果系统直接…

作者头像 李华