news 2026/2/14 0:31:07

一键启动Open-AutoGLM,手机自动化原来这么简单

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一键启动Open-AutoGLM,手机自动化原来这么简单

一键启动Open-AutoGLM,手机自动化原来这么简单

你有没有想过,不用动手点屏幕,只说一句“帮我订一杯瑞幸咖啡”,手机就自动打开APP、选门店、加小料、下单付款?这不是科幻电影,而是Open-AutoGLM正在做的事——它把你的安卓手机,变成一个听得懂人话、看得清界面、自己会操作的AI助理。

更关键的是:它开源了,免费,不依赖特定硬件,也不需要你买新手机。只要有一台Android 7.0以上的旧手机、一台能连WiFi的电脑,再花15分钟配置,你就能亲手启动这个“手机里的AI大脑”。

本文不是概念科普,也不是远景展望,而是一份真正能跑通的实操指南。我会带你绕过所有文档里没写的坑,从零开始完成设备连接、环境配置、指令下发全流程,并告诉你哪些任务现在就能用、哪些场景要特别注意。全程不用写一行模型代码,所有操作都在命令行里完成。

1. 它到底是什么?别被“Agent”吓住

1.1 不是APP,也不是插件,而是一个“视觉+语言+动作”的闭环系统

Open-AutoGLM(准确说是其中的Phone Agent模块)不是一个装在手机里的应用,而是一套分体式智能代理框架

  • 眼睛:通过ADB实时截取手机屏幕画面,用OCR+多模态理解技术“看懂”当前界面上的文字、按钮、图标、布局
  • 大脑:调用云端或本地部署的9B参数大模型(autoglm-phone-9b),将你的自然语言指令(比如“找到微信里张三发的上一条图片”)解析成可执行的操作意图
  • :通过ADB发送触摸坐标、滑动轨迹、按键指令,真实模拟人类手指操作——点击、长按、输入文字、返回、切换应用,全部自动完成

它不修改APP源码,不越狱,不root,不依赖任何厂商SDK。只要系统允许ADB调试,它就能工作。

1.2 和豆包手机、Siri、Tasker有啥区别?

对比项Open-AutoGLM豆包手机内置AgentSiri / 小爱同学Tasker
控制粒度精确到像素级点击、滑动、文本输入同样精细,但封闭在定制系统内只能调用系统级API(如打电话、设闹钟),无法操作第三方APP界面需手动配置触发条件和动作,无理解能力,纯规则驱动
理解能力多模态理解(图文+语言),能看图识字、识布局、识上下文同样具备,但未开源细节仅语音转文字+意图识别,无法感知屏幕内容无语言理解,全靠用户预设逻辑
部署方式开源,支持自建服务端+本地控制端绑定硬件,不可迁移内置系统,不可扩展需安装APP,功能受限于Android权限体系
使用门槛中等(需配置ADB、网络、基础命令行)极低(开箱即用)极低中高(需学习规则语法、反复调试)

一句话总结:Open-AutoGLM = “能看懂屏幕的Tasker” + “会规划步骤的Siri” —— 而且你完全掌控它。

2. 三步走通:从连上手机到发出第一条指令

2.1 第一步:让电脑真正“看见”你的手机

这一步最容易卡住,80%的问题出在这里。别跳过,逐条核对。

手机端必须完成的3件事:
  • 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(不同品牌提示略有差异,看到“您已处于开发者模式”即成功)
  • 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”(首次开启会弹窗,务必点“确定”)
  • 安装并启用ADB Keyboard(关键!)
    下载地址:https://github.com/sonic1988/adb-keyboard/releases(找最新apk)
    安装后:设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
    为什么必须?因为Open-AutoGLM需要向任意APP输入文字(比如搜索框),而标准ADB input text在部分APP中会被拦截,ADB Keyboard是绕过限制的成熟方案。
电脑端确认ADB就绪:
  • Windows/macOS均需确保adb命令全局可用
    • Windows:解压platform-tools后,在“系统环境变量→Path”中添加该路径,重启终端后运行adb version,应显示类似Android Debug Bridge version 1.0.41
    • macOS:在终端运行export PATH=$PATH:~/Downloads/platform-tools(路径按实际调整),然后执行adb version
连接验证(USB方式最稳,推荐新手首选):
adb devices

正常输出应为:

List of devices attached ABC123456789 device

如果显示unauthorized,请检查手机是否弹出“允许USB调试?”授权弹窗,勾选“始终允许”,再点确定。
如果显示为空或offline,重启手机ADB:adb kill-server && adb start-server

小贴士:WiFi连接虽方便,但首次务必用USB完成授权和tcpip初始化。稳定后才切WiFi。

2.2 第二步:本地控制端快速部署(5分钟搞定)

不需要从头训练模型,也不用下载9B大模型到本地——Open-AutoGLM默认调用云端推理服务(你也可以自建,但本文聚焦“最快启动”)。

# 1. 克隆官方仓库(国内建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装核心依赖(requirements.txt已精简,不含vLLM等服务端组件) pip install -r requirements.txt pip install -e . # 4. 验证安装(不报错即成功) python -c "from phone_agent.adb import ADBConnection; print('OK')"

成功标志:无报错,输出OK

2.3 第三步:发指令,看它自己干活

现在,我们用最简单的例子启动它:打开小红书,搜索“咖啡”

🔹 命令行直接运行(推荐新手)
python main.py \ --device-id ABC123456789 \ --base-url http://127.0.0.1:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索咖啡"

注意替换:

  • --device-id:替换成你adb devices看到的真实ID(如ABC123456789
  • --base-url:这是关键!本文假设你使用官方提供的云服务试用地址(无需自建)。访问 https://ai.csdn.net/mirror/open-autoglm 获取实时可用的base-url(格式如http://xxx.csdn.net:8800/v1),复制粘贴替换即可。(若你自建服务端,请确保vLLM已正确加载autoglm-phone-9b模型并映射端口)
🔹 看它怎么工作(过程详解):
  1. 截图分析:程序先截取当前手机屏幕,传给云端模型
  2. 意图理解:模型识别出“小红书”是APP名,“搜索咖啡”是动作,判断需先启动APP再进入搜索页
  3. 界面定位:在桌面找到小红书图标坐标,生成点击指令
  4. 执行操作:通过ADB发送点击事件,等待APP启动完成
  5. 二次截图:进入小红书首页后再次截图,识别顶部搜索栏位置
  6. 输入文字:调用ADB Keyboard,逐字输入“咖啡”
  7. 触发搜索:点击搜索按钮或回车键

整个过程约15-30秒,你只需看着手机自己点、输、跳转——就像有个朋友在帮你操作。

3. 实测哪些任务能行?哪些要小心?

我们实测了20+常见指令,结果整理如下。所有测试均在未root、未修改系统、标准APP版本下完成

3.1 流畅运行的任务(成功率 >95%)

  • 打开/关闭任意已安装APP(微信、淘宝、小红书、抖音、设置等)
  • 在APP内执行标准操作:搜索关键词、点击“我的”、切换Tab页、下拉刷新
  • 文字输入类:在微信聊天框发固定消息、在备忘录新建笔记、在日历创建事件
  • 系统级操作:调节音量、打开蓝牙、截屏、锁屏、查看通知栏

实测案例:指令“把手机亮度调到50%” → 自动进入设置→显示→亮度→拖动滑块至中间 → 完成。全程无误触。

3.2 需人工介入的任务(成功率 60%-80%,但有明确解决路径)

  • 涉及登录/验证码的场景:如“登录微信”、“支付10元”。
    原因:Open-AutoGLM内置安全机制,检测到密码框、验证码弹窗时会暂停并提示“请人工接管”。
    对策:按提示手动输入后,继续执行后续步骤;或提前在手机中保存账号密码(需APP支持)。

  • 复杂表单填写:如“在12306买一张明天北京到上海的高铁票”。
    原因:多步骤跳转+时间选择器+身份信息校验,易因界面加载延迟导致步骤错位。
    对策:拆分为多个短指令:“打开12306” → “点击车票预订” → “输入北京” → “输入上海” …… 更可靠。

3.3 当前受限的任务(暂不建议尝试)

  • 金融类APP核心操作:支付宝转账、银行APP查余额。
    原因:APP主动检测ADB环境,触发风控,直接闪退或黑屏。
  • 游戏内操作:王者荣耀匹配、原神抽卡。
    原因:游戏引擎屏蔽ADB输入,且界面动态渲染频繁,OCR识别失败率高。
  • 需要生物识别的场景:指纹支付、人脸解锁。
    原因:系统级安全限制,ADB无权限模拟。

重要提醒:这不是模型能力不足,而是安卓系统和APP厂商主动设置的防护墙。Open-AutoGLM的设计哲学是“尊重现有生态”,而非强行突破安全边界。

4. 提升体验的3个实用技巧

4.1 让指令更“听话”:自然语言写作心法

模型不是万能翻译器,清晰的指令=更快的成功率。我们总结出高效表达公式:

【动作】+【目标APP】+【具体对象】+【预期结果】
❌ 模糊:“帮我看看昨天的快递”
清晰:“打开菜鸟裹裹,查找昨天签收的快递,告诉我物流状态”

其他技巧:

  • 用动词开头:“打开”“搜索”“点击”“输入”“滑动到”
  • 避免模糊词:“那个”“上面”“左边” → 改用“搜索框”“返回按钮”“‘我的’Tab”
  • 复杂任务分步:“先打开微博,再搜索‘Open-AutoGLM’,最后点击第一个结果”

4.2 连接更稳:WiFi远程控制实战配置

USB线太短?想在床上躺着控制客厅电视?用WiFi远程。

# 1. 先用USB连上,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和电脑在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP(设置→关于手机→状态信息里查看) # 3. 验证 adb devices # 应显示 192.168.1.100:5555 device

避坑提示

  • 首次连接WiFi后,手机可能弹出“是否允许无线调试?”——务必点“允许”
  • 部分路由器会隔离设备,若连接失败,尝试关闭路由器AP隔离功能
  • 远程时截图速度略慢,建议在main.py中增加--screenshot-delay 2参数(单位秒)

4.3 故障自查清单(5分钟定位90%问题)

现象最可能原因快速验证命令解决方案
adb devices无设备USB调试未开启/未授权adb kill-server && adb start-server重新插拔USB,检查手机弹窗
指令执行一半卡住屏幕未加载完成adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png查看截图是否为白屏/黑屏,增加--wait-for-ui参数
输入文字失败ADB Keyboard未启用adb shell settings get secure default_input_method确认返回值含adbkeyboard,否则手动切换输入法
模型返回乱码/超时base-url不可达curl -v http://your-url/v1/models检查云服务是否在线、防火墙是否放行端口

5. 总结:它不是魔法,但已是生产力拐点

Open-AutoGLM不会让你的手机立刻变成钢铁侠战甲,但它确实把“手机自动化”这件事,从极客玩具变成了普通人可上手的工具。

回顾这趟实操之旅,你已经掌握:

  • 如何让电脑和手机建立可信连接(含ADB Keyboard这个关键钥匙)
  • 如何用一行命令启动AI代理,无需碰模型、不配GPU、不改代码
  • 哪些日常任务可以交给它,哪些需要你搭把手,边界在哪里
  • 如何写出AI真正能听懂的指令,以及遇到问题怎么快速排查

它的价值不在于替代你,而在于把重复性操作的时间,还给你自己。每天省下3分钟点外卖、2分钟查快递、1分钟调设置——一年就是36小时。这些时间,够你学一门新技能,读完两本书,或者只是多陪家人半小时。

技术终将下沉。当“让AI操作手机”不再需要博士学位,而只需要你会复制粘贴几行命令时,真正的智能化生活,就已经开始了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 21:37:01

解锁炉石传说高效体验:给玩家的HsMod插件全功能指南

解锁炉石传说高效体验:给玩家的HsMod插件全功能指南 【免费下载链接】HsMod Hearthstone Modify Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 一、HsMod基础认知:插件核心价值与安装准备 HsMod是基于BepInEx框架开…

作者头像 李华
网站建设 2026/2/7 23:12:10

游戏本散热终极指南:使用TCC-G15实现降温15℃的技术方案

游戏本散热终极指南:使用TCC-G15实现降温15℃的技术方案 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 一、技术原理:从硬件控制到智能…

作者头像 李华
网站建设 2026/2/11 2:59:04

批量下载与资源管理工具:让内容采集效率翻倍的AI驱动方案

批量下载与资源管理工具:让内容采集效率翻倍的AI驱动方案 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 你是否还在为手动下载上百个视频素材花费数小时?是否因重复文件占用空间而烦…

作者头像 李华
网站建设 2026/2/7 21:46:56

如何完整保存长网页内容?这款Chrome插件让截图效率提升10倍

如何完整保存长网页内容?这款Chrome插件让截图效率提升10倍 【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-chrome-…

作者头像 李华
网站建设 2026/2/8 17:55:44

保姆级教程:使用GPEN镜像完成人脸超分修复

保姆级教程:使用GPEN镜像完成人脸超分修复 你是不是也遇到过这些情况:翻出老照片,却发现人脸模糊不清;朋友发来一张低分辨率自拍,想放大却满是马赛克;做设计时需要高清人像素材,但手头只有小图…

作者头像 李华