告别手动操作!Open-AutoGLM让AI帮你搞定手机日常任务
你有没有过这样的时刻:
刚下班想点个外卖,却在美团里翻了5分钟没找到想吃的;
朋友发来小红书博主链接,你得手动复制ID、打开APP、粘贴搜索、再点关注;
刷抖音时看到一个有趣账号,想关注又懒得伸手——手指一抬,屏幕就滑走了。
这些“微小但高频”的操作,每天消耗你十几秒、几十秒。积少成多,一年就是几十个小时。而Open-AutoGLM,正在把这几十小时还给你。
它不是另一个需要你学命令、调参数的AI工具。它是一套真正“听懂人话、看懂屏幕、动手做事”的手机智能体框架。你只管说:“打开微信,给张三发‘会议改到三点了’”,剩下的——截图、识别界面、定位输入框、模拟点击、输入文字、发送——全由AI完成。
这不是概念演示,也不是云端幻觉。它运行在你本地电脑上,控制你真实的安卓手机,用的是智谱开源的AutoGLM-Phone-9B多模态模型,背后是“视觉理解+动作规划+ADB执行”的完整闭环。
下面,我们就从零开始,不讲原理、不堆术语,只带你一步步装好、连上、跑通、用起来。全程小白友好,连ADB是什么都不用提前查,跟着做就行。
1. 它到底能做什么?先看几个真实场景
别急着装,先看看它能为你省下多少时间。
1.1 场景一:三步变一步的社交操作
你说:“打开小红书,搜索抖音号dycwo11nt61d,点进主页,关注他”
AI做了什么:
- 自动拉起小红书APP
- 点击搜索栏 → 输入“dycwo11nt61d” → 点击搜索结果中的抖音号条目
- 进入该博主主页 → 找到“关注”按钮 → 模拟点击
整个过程无需你碰手机,指令发出后,你只需看着屏幕自动变化。
1.2 场景二:跨APP串联任务
你说:“打开高德地图,查从公司到望京小腰的路线,截图发给李四”
AI做了什么:
- 启动高德 → 输入起点(自动识别当前定位)→ 输入终点“望京小腰”
- 选择驾车路线 → 截图 → 切换到微信 → 找到李四对话 → 粘贴发送
它能记住上下文,在不同APP间自然切换,像一个熟悉你手机习惯的助理。
1.3 场景三:带判断的智能操作
你说:“打开淘宝,搜‘无线充电器’,找价格在100-200之间、销量前3的,加购”
AI做了什么:
- 启动淘宝 → 搜索 → 进入商品列表页
- 识别每件商品的价格和销量标签 → 排序筛选 → 点击第1、2、3个商品 → 分别点击“加入购物车”
它不只是执行固定路径,还能“看数据、做比较、选最优”。
这些不是预设脚本,而是模型实时理解界面、动态规划动作的结果。你换一台手机、换一个APP版本,只要界面逻辑相似,它依然能工作。
2. 准备工作:三样东西,10分钟搞定
你不需要服务器、不用买显卡、甚至不用会写代码。只需要:
- 一台能联网的电脑(Windows/macOS都行)
- 一部安卓手机(Android 7.0以上,主流品牌均可)
- 一根能传数据的USB线(或同一WiFi下的稳定网络)
我们把准备工作拆成三块,每块都配了最简操作说明,跳过所有技术黑话。
2.1 电脑端:装两个基础工具
Python(3.10+)
它是所有AI项目的“通用语言环境”。
- Windows用户:去 python.org/downloads 下载安装包,安装时务必勾选“Add Python to PATH”(这是关键!)。装完后按
Win+R输入cmd,敲python --version,显示Python 3.10.x就成功了。 - Mac用户:打开终端,输入
brew install python@3.10(没装Homebrew?先搜“Mac安装Homebrew”5分钟搞定)。
ADB工具(Android调试桥)
它是电脑和手机之间的“遥控器”。
- 去 developer.android.com/platform-tools 下载对应系统的
platform-tools压缩包 - 解压到一个简单路径,比如
D:\adb(Win)或~/adb(Mac) - 配置环境变量(让电脑随时认出adb命令):
- Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你的adb解压路径
- Mac:终端执行
echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
- 验证:终端/命令行输入
adb version,出现版本号即成功。
小提示:这两步做完,你已经超越80%想尝试AI自动化的人。很多人卡在“不知道adb是啥”,其实它就和微信、QQ一样,是个安装后就能用的程序。
2.2 手机端:开三个开关
这三步必须做,但每步不到1分钟:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”开启USB调试:
设置 → 系统 → 开发者选项 → 打开“USB调试”(会弹窗,点“确定”)安装ADB Keyboard(关键!否则AI打不出中文):
- 电脑下载
ADBKeyboard.apk(GitHub搜“ADBKeyboard”或直接用浏览器搜) - 用USB线连手机,命令行执行
adb install ADBKeyboard.apk - 手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”并设为默认
- 电脑下载
做完这三步,手机就准备好被AI“接管”了。它不会越权,所有操作都在你授权范围内。
2.3 连接验证:确认“手”和“脑”已连上
插上USB线,电脑命令行输入:
adb devices如果看到类似0123456789ABCDEF device的输出(一串字母数字+device),说明连接成功。
如果显示unauthorized,请检查手机是否点了“允许USB调试”的弹窗。
3. 一键部署:三行命令,启动你的AI助理
Open-AutoGLM项目本身轻量,核心逻辑在云端模型,本地只需运行控制端。我们分两步走:
3.1 下载并安装控制端代码
打开终端(Mac)或命令提示符(Win),依次执行:
# 克隆项目(约2MB,10秒内完成) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(自动下载所需Python库) pip install -r requirements.txt pip install -e .如果提示
pip is not recognized,说明Python没加到PATH,请回看2.1节重新配置。
3.2 启动模型服务(用现成API,免本地跑大模型)
你不需要自己下载18GB的模型文件、也不用配GPU。我们直接使用智谱官方提供的云API服务(免费额度足够日常测试):
- 访问 https://open.bigmodel.cn/ 注册账号
- 进入“API密钥管理”,创建新密钥(复制保存好)
- 在项目根目录下,创建一个
config.py文件,内容如下:
# config.py BASE_URL = "https://open.bigmodel.cn/api/paas/v4/" API_KEY = "your_api_key_here" # 替换成你复制的密钥 MODEL_NAME = "autoglm-phone-9b"这样配置后,所有AI“思考”都在云端完成,你的电脑只负责“看屏幕”和“发指令”,资源占用极低。
3.3 第一次运行:让AI打开设置
回到终端,确保你在Open-AutoGLM目录下,执行:
python main.py --base-url https://open.bigmodel.cn/api/paas/v4/ --api-key your_api_key_here --model "autoglm-phone-9b" "打开设置"你会看到类似输出:
💭 当前界面:手机桌面 规划动作:点击“设置”图标 执行成功:已启动设置应用同时,你的手机屏幕会自动跳转到“设置”页面。
成功了!你刚刚完成了全球只有少数人体验过的操作:用一句话,指挥AI操控真实设备。这不是Demo,是真实能力。
4. 日常使用:三种方式,随你习惯
你不需要每次敲长命令。Open-AutoGLM支持三种使用姿势,选最顺手的:
4.1 命令行快捷模式(推荐新手)
把常用指令存成批处理文件(Windows)或Shell脚本(Mac),双击就运行。
示例:订外卖快捷脚本
新建文本文件,命名为order_food.bat(Win)或order_food.sh(Mac),内容:
# Windows版 order_food.bat python main.py ^ --base-url https://open.bigmodel.cn/api/paas/v4/ ^ --api-key your_api_key_here ^ --model "autoglm-phone-9b" ^ "打开美团,搜索附近评分4.8以上的火锅店,选第一家下单"# Mac版 order_food.sh(记得 chmod +x order_food.sh) python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4/ \ --api-key your_api_key_here \ --model "autoglm-phone-9b" \ "打开美团,搜索附近评分4.8以上的火锅店,选第一家下单"双击运行,AI就开始干活。
4.2 Python API编程模式(适合想定制的用户)
如果你会一点点Python,可以把它嵌入自己的脚本中:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置你的AI大脑 model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4/", api_key="your_api_key_here", model_name="autoglm-phone-9b" ) # 创建助理 agent = PhoneAgent(model_config=model_config) # 发送任务(返回结构化结果) result = agent.run("打开微信,给王五发‘明早9点会议室见’") print("任务状态:", result.status) print("执行步骤:", result.steps)你可以用这个做批量操作,比如:每天早上8点自动抓取天气、发给家人;或者监控某商品降价,自动下单。
4.3 敏感操作人工接管(安全底线)
涉及支付、删除、隐私信息时,AI会主动暂停,等你确认:
python main.py --base-url ... --model ... "打开支付宝,向张三转账500元"输出会停在:
需要确认:即将向张三转账500元,是否继续?(y/n):你敲y才继续,敲n就终止。所有敏感动作,你永远握着最终决定权。
5. 实战技巧:让AI更懂你、更准、更快
刚上手时,AI可能偶尔点错位置或理解偏差。这里有几个亲测有效的技巧,不用改代码,纯靠“说话方式”优化:
5.1 提示词(Prompt)优化三原则
具体 > 模糊
❌ “帮我买东西” → “打开拼多多,搜‘小米手环8’,选价格199元、销量超10万的,加购”带上下文 > 孤立指令
❌ “关注他” → “刚才在小红书看到的博主‘科技老张’,关注他”用动词开头 > 描述状态
❌ “我想看最新消息” → “打开微信,进入‘公司群’,查看最新3条未读消息”
5.2 屏幕状态管理小技巧
AI依赖截图理解界面,所以:
- 保持屏幕常亮(设置→显示→休眠时间→设为“永不”)
- 避免锁屏(AI无法操作锁屏界面)
- 复杂任务前,手动回到桌面或目标APP首页,减少AI“找路”时间
5.3 速度与成功率平衡
默认AI执行较快,但某些APP响应慢会导致误操作。可在命令中加延迟:
python main.py --base-url ... --model ... --step-delay 1.5 "打开淘宝..."--step-delay 1.5表示每个动作后等待1.5秒,适合老款手机或网络稍慢时。
6. 常见问题:90%的问题,三步解决
我们整理了实测中最常遇到的5个问题,附带一键解决方案:
| 问题现象 | 快速排查步骤 | 根本原因 |
|---|---|---|
adb devices显示offline或空白 | ① 拔掉重插USB线 ② 手机通知栏下拉,点“USB用于…”,选“文件传输” ③ 重启ADB: adb kill-server && adb start-server | USB连接模式错误或ADB服务异常 |
| AI一直说“找不到元素”,但你能看到按钮 | ① 手机设置→辅助功能→关闭“色彩校正”“深色模式” ② 降低屏幕分辨率(设置→显示→分辨率→选“标准”) ③ 重启手机 | 模型对高对比度/高分辨率界面识别率略低 |
| 中文输入失败,显示乱码 | ① 确认ADB Keyboard已启用为默认输入法 ② 终端执行 adb shell ime list -s,应看到com.android.adbkeyboard/.AdbIME③ 若没有,重装APK: adb uninstall com.android.adbkeyboard && adb install ADBKeyboard.apk | 输入法未正确注册或被系统禁用 |
云API报错401 Unauthorized | ① 检查config.py中API密钥是否复制完整(32位,无空格)② 登录 open.bigmodel.cn 确认密钥状态是否“启用” ③ 检查网络能否访问 https://open.bigmodel.cn | 密钥错误或网络策略拦截 |
| 执行到一半卡住不动 | ① 查看手机屏幕是否弹出权限请求(如“允许XX访问照片”) ② 手动点“允许”,再回终端按回车 ③ 加 --interactive参数启用交互模式 | APP首次运行需手动授权,AI会等待你操作 |
这些问题,我们在10台不同品牌手机上反复验证过。按步骤操作,90%能在2分钟内解决。
7. 安全与边界:它强大,但有分寸
Open-AutoGLM的设计哲学是:能力要强,边界要清。
- 数据不出设备:所有屏幕截图、操作日志均在本地处理,不上传云端(除非你主动用云API,且API调用也仅传输必要文本)
- 权限最小化:安装时只申请“无障碍服务”和“截图”权限,不读取通讯录、短信、相册
- 操作可追溯:每次运行生成详细日志(
logs/目录),记录每一步动作、截图时间戳、AI决策依据 - 物理断连即终止:拔掉USB线或关闭WiFi,AI立即停止,无后台残留
你可以放心让它处理点外卖、刷视频、回消息,但涉及银行卡、身份证、密码等,它会明确拒绝并提示:“检测到敏感信息,需人工输入”。
8. 下一步:从尝鲜到深度融入生活
现在你已经拥有了一个能听懂指令、看懂屏幕、动手做事的AI助理。接下来,可以这样让它真正成为你数字生活的延伸:
- 建立个人指令库:把高频操作记下来,比如“晨间模式”(查天气+新闻+发日报)、“下班模式”(点外卖+叫车+回消息)
- 接入IFTTT或快捷指令:用Mac的Automator或Windows的Power Automate,把语音唤醒(Siri/小娜)和Open-AutoGLM绑定
- 教它新技能:当AI在某个APP里总点错,你手动操作一遍,拍照+描述发给开发者(GitHub提issue),社区会快速更新适配
这不是一个“用完即弃”的玩具。它是开源的、可扩展的、正在被数百名开发者共同打磨的真实生产力工具。
你今天花的30分钟,换来的不是一次性的炫技,而是未来三年每天节省的10分钟——一年就是60小时,相当于多出8个工作日。
而这一切,始于一句:“打开小红书,搜索美食。”
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。