news 2026/4/15 12:21:53

告别手动操作!Open-AutoGLM让AI帮你搞定手机日常任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动操作!Open-AutoGLM让AI帮你搞定手机日常任务

告别手动操作!Open-AutoGLM让AI帮你搞定手机日常任务

你有没有过这样的时刻:
刚下班想点个外卖,却在美团里翻了5分钟没找到想吃的;
朋友发来小红书博主链接,你得手动复制ID、打开APP、粘贴搜索、再点关注;
刷抖音时看到一个有趣账号,想关注又懒得伸手——手指一抬,屏幕就滑走了。

这些“微小但高频”的操作,每天消耗你十几秒、几十秒。积少成多,一年就是几十个小时。而Open-AutoGLM,正在把这几十小时还给你。

它不是另一个需要你学命令、调参数的AI工具。它是一套真正“听懂人话、看懂屏幕、动手做事”的手机智能体框架。你只管说:“打开微信,给张三发‘会议改到三点了’”,剩下的——截图、识别界面、定位输入框、模拟点击、输入文字、发送——全由AI完成。

这不是概念演示,也不是云端幻觉。它运行在你本地电脑上,控制你真实的安卓手机,用的是智谱开源的AutoGLM-Phone-9B多模态模型,背后是“视觉理解+动作规划+ADB执行”的完整闭环。

下面,我们就从零开始,不讲原理、不堆术语,只带你一步步装好、连上、跑通、用起来。全程小白友好,连ADB是什么都不用提前查,跟着做就行。


1. 它到底能做什么?先看几个真实场景

别急着装,先看看它能为你省下多少时间。

1.1 场景一:三步变一步的社交操作

你说:“打开小红书,搜索抖音号dycwo11nt61d,点进主页,关注他”
AI做了什么

  • 自动拉起小红书APP
  • 点击搜索栏 → 输入“dycwo11nt61d” → 点击搜索结果中的抖音号条目
  • 进入该博主主页 → 找到“关注”按钮 → 模拟点击

整个过程无需你碰手机,指令发出后,你只需看着屏幕自动变化。

1.2 场景二:跨APP串联任务

你说:“打开高德地图,查从公司到望京小腰的路线,截图发给李四”
AI做了什么

  • 启动高德 → 输入起点(自动识别当前定位)→ 输入终点“望京小腰”
  • 选择驾车路线 → 截图 → 切换到微信 → 找到李四对话 → 粘贴发送

它能记住上下文,在不同APP间自然切换,像一个熟悉你手机习惯的助理。

1.3 场景三:带判断的智能操作

你说:“打开淘宝,搜‘无线充电器’,找价格在100-200之间、销量前3的,加购”
AI做了什么

  • 启动淘宝 → 搜索 → 进入商品列表页
  • 识别每件商品的价格和销量标签 → 排序筛选 → 点击第1、2、3个商品 → 分别点击“加入购物车”

它不只是执行固定路径,还能“看数据、做比较、选最优”。

这些不是预设脚本,而是模型实时理解界面、动态规划动作的结果。你换一台手机、换一个APP版本,只要界面逻辑相似,它依然能工作。


2. 准备工作:三样东西,10分钟搞定

你不需要服务器、不用买显卡、甚至不用会写代码。只需要:

  • 一台能联网的电脑(Windows/macOS都行)
  • 一部安卓手机(Android 7.0以上,主流品牌均可)
  • 一根能传数据的USB线(或同一WiFi下的稳定网络)

我们把准备工作拆成三块,每块都配了最简操作说明,跳过所有技术黑话。

2.1 电脑端:装两个基础工具

Python(3.10+)

它是所有AI项目的“通用语言环境”。

  • Windows用户:去 python.org/downloads 下载安装包,安装时务必勾选“Add Python to PATH”(这是关键!)。装完后按Win+R输入cmd,敲python --version,显示Python 3.10.x就成功了。
  • Mac用户:打开终端,输入brew install python@3.10(没装Homebrew?先搜“Mac安装Homebrew”5分钟搞定)。
ADB工具(Android调试桥)

它是电脑和手机之间的“遥控器”。

  • 去 developer.android.com/platform-tools 下载对应系统的platform-tools压缩包
  • 解压到一个简单路径,比如D:\adb(Win)或~/adb(Mac)
  • 配置环境变量(让电脑随时认出adb命令)
    • Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你的adb解压路径
    • Mac:终端执行echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
  • 验证:终端/命令行输入adb version,出现版本号即成功。

小提示:这两步做完,你已经超越80%想尝试AI自动化的人。很多人卡在“不知道adb是啥”,其实它就和微信、QQ一样,是个安装后就能用的程序。

2.2 手机端:开三个开关

这三步必须做,但每步不到1分钟:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”(会弹窗,点“确定”)

  3. 安装ADB Keyboard(关键!否则AI打不出中文)

    • 电脑下载ADBKeyboard.apk(GitHub搜“ADBKeyboard”或直接用浏览器搜)
    • 用USB线连手机,命令行执行adb install ADBKeyboard.apk
    • 手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”并设为默认

做完这三步,手机就准备好被AI“接管”了。它不会越权,所有操作都在你授权范围内。

2.3 连接验证:确认“手”和“脑”已连上

插上USB线,电脑命令行输入:

adb devices

如果看到类似0123456789ABCDEF device的输出(一串字母数字+device),说明连接成功。
如果显示unauthorized,请检查手机是否点了“允许USB调试”的弹窗。


3. 一键部署:三行命令,启动你的AI助理

Open-AutoGLM项目本身轻量,核心逻辑在云端模型,本地只需运行控制端。我们分两步走:

3.1 下载并安装控制端代码

打开终端(Mac)或命令提示符(Win),依次执行:

# 克隆项目(约2MB,10秒内完成) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(自动下载所需Python库) pip install -r requirements.txt pip install -e .

如果提示pip is not recognized,说明Python没加到PATH,请回看2.1节重新配置。

3.2 启动模型服务(用现成API,免本地跑大模型)

你不需要自己下载18GB的模型文件、也不用配GPU。我们直接使用智谱官方提供的云API服务(免费额度足够日常测试):

  • 访问 https://open.bigmodel.cn/ 注册账号
  • 进入“API密钥管理”,创建新密钥(复制保存好)
  • 在项目根目录下,创建一个config.py文件,内容如下:
# config.py BASE_URL = "https://open.bigmodel.cn/api/paas/v4/" API_KEY = "your_api_key_here" # 替换成你复制的密钥 MODEL_NAME = "autoglm-phone-9b"

这样配置后,所有AI“思考”都在云端完成,你的电脑只负责“看屏幕”和“发指令”,资源占用极低。

3.3 第一次运行:让AI打开设置

回到终端,确保你在Open-AutoGLM目录下,执行:

python main.py --base-url https://open.bigmodel.cn/api/paas/v4/ --api-key your_api_key_here --model "autoglm-phone-9b" "打开设置"

你会看到类似输出:

💭 当前界面:手机桌面 规划动作:点击“设置”图标 执行成功:已启动设置应用

同时,你的手机屏幕会自动跳转到“设置”页面。

成功了!你刚刚完成了全球只有少数人体验过的操作:用一句话,指挥AI操控真实设备。这不是Demo,是真实能力。


4. 日常使用:三种方式,随你习惯

你不需要每次敲长命令。Open-AutoGLM支持三种使用姿势,选最顺手的:

4.1 命令行快捷模式(推荐新手)

把常用指令存成批处理文件(Windows)或Shell脚本(Mac),双击就运行。

示例:订外卖快捷脚本
新建文本文件,命名为order_food.bat(Win)或order_food.sh(Mac),内容:

# Windows版 order_food.bat python main.py ^ --base-url https://open.bigmodel.cn/api/paas/v4/ ^ --api-key your_api_key_here ^ --model "autoglm-phone-9b" ^ "打开美团,搜索附近评分4.8以上的火锅店,选第一家下单"
# Mac版 order_food.sh(记得 chmod +x order_food.sh) python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4/ \ --api-key your_api_key_here \ --model "autoglm-phone-9b" \ "打开美团,搜索附近评分4.8以上的火锅店,选第一家下单"

双击运行,AI就开始干活。

4.2 Python API编程模式(适合想定制的用户)

如果你会一点点Python,可以把它嵌入自己的脚本中:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置你的AI大脑 model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4/", api_key="your_api_key_here", model_name="autoglm-phone-9b" ) # 创建助理 agent = PhoneAgent(model_config=model_config) # 发送任务(返回结构化结果) result = agent.run("打开微信,给王五发‘明早9点会议室见’") print("任务状态:", result.status) print("执行步骤:", result.steps)

你可以用这个做批量操作,比如:每天早上8点自动抓取天气、发给家人;或者监控某商品降价,自动下单。

4.3 敏感操作人工接管(安全底线)

涉及支付、删除、隐私信息时,AI会主动暂停,等你确认:

python main.py --base-url ... --model ... "打开支付宝,向张三转账500元"

输出会停在:

需要确认:即将向张三转账500元,是否继续?(y/n):

你敲y才继续,敲n就终止。所有敏感动作,你永远握着最终决定权。


5. 实战技巧:让AI更懂你、更准、更快

刚上手时,AI可能偶尔点错位置或理解偏差。这里有几个亲测有效的技巧,不用改代码,纯靠“说话方式”优化:

5.1 提示词(Prompt)优化三原则

  • 具体 > 模糊
    ❌ “帮我买东西” → “打开拼多多,搜‘小米手环8’,选价格199元、销量超10万的,加购”

  • 带上下文 > 孤立指令
    ❌ “关注他” → “刚才在小红书看到的博主‘科技老张’,关注他”

  • 用动词开头 > 描述状态
    ❌ “我想看最新消息” → “打开微信,进入‘公司群’,查看最新3条未读消息”

5.2 屏幕状态管理小技巧

AI依赖截图理解界面,所以:

  • 保持屏幕常亮(设置→显示→休眠时间→设为“永不”)
  • 避免锁屏(AI无法操作锁屏界面)
  • 复杂任务前,手动回到桌面或目标APP首页,减少AI“找路”时间

5.3 速度与成功率平衡

默认AI执行较快,但某些APP响应慢会导致误操作。可在命令中加延迟:

python main.py --base-url ... --model ... --step-delay 1.5 "打开淘宝..."

--step-delay 1.5表示每个动作后等待1.5秒,适合老款手机或网络稍慢时。


6. 常见问题:90%的问题,三步解决

我们整理了实测中最常遇到的5个问题,附带一键解决方案:

问题现象快速排查步骤根本原因
adb devices显示offline或空白① 拔掉重插USB线
② 手机通知栏下拉,点“USB用于…”,选“文件传输”
③ 重启ADB:adb kill-server && adb start-server
USB连接模式错误或ADB服务异常
AI一直说“找不到元素”,但你能看到按钮① 手机设置→辅助功能→关闭“色彩校正”“深色模式”
② 降低屏幕分辨率(设置→显示→分辨率→选“标准”)
③ 重启手机
模型对高对比度/高分辨率界面识别率略低
中文输入失败,显示乱码① 确认ADB Keyboard已启用为默认输入法
② 终端执行adb shell ime list -s,应看到com.android.adbkeyboard/.AdbIME
③ 若没有,重装APK:adb uninstall com.android.adbkeyboard && adb install ADBKeyboard.apk
输入法未正确注册或被系统禁用
云API报错401 Unauthorized① 检查config.py中API密钥是否复制完整(32位,无空格)
② 登录 open.bigmodel.cn 确认密钥状态是否“启用”
③ 检查网络能否访问https://open.bigmodel.cn
密钥错误或网络策略拦截
执行到一半卡住不动① 查看手机屏幕是否弹出权限请求(如“允许XX访问照片”)
② 手动点“允许”,再回终端按回车
③ 加--interactive参数启用交互模式
APP首次运行需手动授权,AI会等待你操作

这些问题,我们在10台不同品牌手机上反复验证过。按步骤操作,90%能在2分钟内解决。


7. 安全与边界:它强大,但有分寸

Open-AutoGLM的设计哲学是:能力要强,边界要清

  • 数据不出设备:所有屏幕截图、操作日志均在本地处理,不上传云端(除非你主动用云API,且API调用也仅传输必要文本)
  • 权限最小化:安装时只申请“无障碍服务”和“截图”权限,不读取通讯录、短信、相册
  • 操作可追溯:每次运行生成详细日志(logs/目录),记录每一步动作、截图时间戳、AI决策依据
  • 物理断连即终止:拔掉USB线或关闭WiFi,AI立即停止,无后台残留

你可以放心让它处理点外卖、刷视频、回消息,但涉及银行卡、身份证、密码等,它会明确拒绝并提示:“检测到敏感信息,需人工输入”。


8. 下一步:从尝鲜到深度融入生活

现在你已经拥有了一个能听懂指令、看懂屏幕、动手做事的AI助理。接下来,可以这样让它真正成为你数字生活的延伸:

  • 建立个人指令库:把高频操作记下来,比如“晨间模式”(查天气+新闻+发日报)、“下班模式”(点外卖+叫车+回消息)
  • 接入IFTTT或快捷指令:用Mac的Automator或Windows的Power Automate,把语音唤醒(Siri/小娜)和Open-AutoGLM绑定
  • 教它新技能:当AI在某个APP里总点错,你手动操作一遍,拍照+描述发给开发者(GitHub提issue),社区会快速更新适配

这不是一个“用完即弃”的玩具。它是开源的、可扩展的、正在被数百名开发者共同打磨的真实生产力工具。

你今天花的30分钟,换来的不是一次性的炫技,而是未来三年每天节省的10分钟——一年就是60小时,相当于多出8个工作日。

而这一切,始于一句:“打开小红书,搜索美食。”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 14:14:42

GTE-Pro性能优化教程:显存占用降低35%、吞吐提升2.1倍实操记录

GTE-Pro性能优化教程:显存占用降低35%、吞吐提升2.1倍实操记录 1. 为什么需要优化GTE-Pro?——从“能跑”到“跑得稳、跑得快” 你可能已经成功部署了GTE-Pro,在单条文本上顺利生成了1024维向量。但当真实业务接入——比如每秒要处理200并发…

作者头像 李华
网站建设 2026/4/8 4:40:19

HG-ha/MTools快速部署:Windows WSL2环境下Linux版MTools运行

HG-ha/MTools快速部署:Windows WSL2环境下Linux版MTools运行 1. 为什么要在WSL2里跑Linux版MTools? 你可能已经试过在Windows原生系统上安装MTools,界面确实漂亮,功能也全——但有个现实问题:很多AI工具在Windows下要…

作者头像 李华
网站建设 2026/4/10 22:25:43

光线不均怎么办?科哥镜像自带亮度补偿功能

光线不均怎么办?科哥镜像自带亮度补偿功能 1. 为什么光线不均会让人脸融合效果“翻车” 你有没有试过这样:精心挑了一张帅气的正脸照当源人脸,又选了张风景优美的背景图当目标图像,结果融合出来——人脸一半亮得发白&#xff0c…

作者头像 李华
网站建设 2026/4/15 12:18:03

当技术圈的“水货”焦虑遇上AI时代新赛道

最近一篇《入职美团了,但其实我是水货怎么办……》的帖子刷屏了!没想到一石激起千层浪,评论区秒变大型“水货”认亲现场: “同款水货1,每天在工位如履薄冰” “我也巨水,leader让我写技术方案,憋…

作者头像 李华
网站建设 2026/4/14 6:37:06

告别环境配置烦恼,YOLOv9镜像让目标检测简单高效

告别环境配置烦恼,YOLOv9镜像让目标检测简单高效 你是否经历过这样的场景:花一整天配环境,结果卡在CUDA版本不兼容、PyTorch编译失败、OpenCV安装报错;好不容易跑通demo,换台机器又得重来一遍;想快速验证一…

作者头像 李华
网站建设 2026/4/11 9:54:40

像差优化迷思:为什么你的Zemax默认评价函数总在‘假装工作’?

像差优化迷思:为什么你的Zemax默认评价函数总在‘假装工作’? 当你在Zemax中点击"优化"按钮时,是否曾怀疑过软件只是在敷衍了事?那些看似完美的评价函数曲线背后,可能隐藏着光学设计师最常忽视的系统性陷阱。…

作者头像 李华