Open-AutoGLM快速上手:三步完成手机AI代理配置
1. 这不是遥控器,是能听懂你话的手机管家
你有没有过这样的时刻:想在小红书搜“周末露营攻略”,却卡在打开App、点搜索框、输关键词、等加载这四步里;想给爸妈发个微信视频,结果他们对着屏幕手足无措,反复问“那个绿色的小人怎么点”;又或者,你正赶着提交一份报告,却要手动切到淘宝查数据、再切回Excel填表、最后发邮件——每一步都简单,但连起来就是一场微型体力劳动。
Open-AutoGLM 不是另一个需要你学命令、调参数、看日志的AI工具。它是一个真正“动口不动手”的手机智能助理——你只管说“打开美团,搜附近川菜,订今晚七点两人位”,它就自己截图、看懂界面、点开App、输入文字、筛选排序、选餐厅、填信息、确认下单。整个过程像有个看不见的助手坐在你手机背后,安静、精准、不抢戏。
它背后的技术听起来很重:视觉语言模型、ADB自动化、多步任务规划……但对使用者来说,这些全被藏起来了。你不需要知道什么是vLLM,也不用搞懂TCP/IP端口映射,更不必背诵Android权限列表。你要做的,只有三件事:让电脑认出手机、告诉AI你想干什么、然后看着它执行。
这篇文章不讲原理,不堆术语,不列一百个配置项。它只聚焦一件事:三步之内,让你的手机第一次听懂你说话,并真的照做。哪怕你从没用过ADB,也没写过一行Python,只要按顺序点几下、敲几行命令,就能亲眼看到AI接管你的手机屏幕。
2. 第一步:让电脑和手机“握上手”
这一步的目标只有一个:让本地电脑能稳定地“看见”并“触碰”你的安卓手机。不是靠蓝牙,不是靠投屏,而是通过Android Debug Bridge(ADB)——安卓系统原生的调试通道。它就像一条隐形的数据缆,即使你拔掉了USB线,也能通过WiFi继续通信。
2.1 你的设备准备好了吗?
先快速确认三件事,不用翻说明书,30秒搞定:
- 手机系统:设置 → 关于手机 → 查看“Android版本”,必须是7.0或更高(2016年以后的主流机型基本都满足);
- 开发者模式:设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”;
- USB调试已开启:设置 → 系统 → 开发者选项 → 找到“USB调试”,打开开关(首次开启会弹窗,点“确定”)。
小提醒:有些国产手机把“开发者选项”藏得深,比如华为叫“开发人员选项”,小米叫“全部参数”,但路径都是“设置→关于手机→狂点版本号”。
2.2 电脑端装一个“翻译官”:ADB工具
ADB不是软件,而是一组命令行工具。你不需要安装完整SDK,只需下载轻量版platform-tools:
- Windows用户:去Google官方页面下载zip包,解压到任意文件夹(比如
C:\adb); - macOS用户:打开终端,运行
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip
接着让系统“认识”它:
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→找到Path→编辑→新建→粘贴你解压的路径(如
C:\adb)→确定; - macOS:在终端运行
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
验证是否成功?打开命令行(Windows是CMD或PowerShell,macOS是Terminal),输入:
adb version如果返回类似Android Debug Bridge version 1.0.41的信息,说明“翻译官”已上岗。
2.3 让手机信任你的电脑(关键!)
用USB线把手机连到电脑。手机屏幕上会立刻弹出一个授权窗口:“允许USB调试吗?”,勾选“始终允许”,再点“确定”。这一步不能跳过,否则后面所有操作都会失败。
然后回到命令行,输入:
adb devices你会看到类似这样的输出:
List of devices attached ZY225TDQ8K device那一串字母数字组合(如ZY225TDQ8K)就是你的设备ID——它就是你手机的“身份证号”,后面每一步都要用到。
如果显示
unauthorized或空白,说明授权没成功,重新拔插USB线,再点一次“确定”;如果显示offline,试试重启手机或电脑的ADB服务:adb kill-server && adb start-server。
3. 第二步:装上“眼睛”和“手”:ADB Keyboard与屏幕控制
Open-AutoGLM 要操作手机,光有“连接”不够,它还得能“打字”和“点击”。安卓默认输入法不支持远程指令,所以我们需要一个专为自动化设计的输入法:ADB Keyboard。
3.1 安装ADB Keyboard(两分钟搞定)
- 去GitHub Releases页面下载最新版APK:https://github.com/senzhk/ADBKeyBoard/releases(找
ADBKeyboard.apk); - 用手机浏览器下载,或电脑下载后通过微信/QQ传到手机;
- 在手机上点击安装(如果提示“禁止安装未知来源应用”,去“设置→安全→未知来源”打开);
- 安装完成后,去“设置→系统→语言与输入法→虚拟键盘”,把“ADB Keyboard”设为默认输入法。
为什么必须换输入法?因为AI要自动输入文字(比如搜索关键词、填写密码),普通输入法无法接收远程指令。ADB Keyboard就像给手机装了一个只听命令、不问缘由的打字机器人。
3.2 验证“手”和“眼睛”是否就绪
现在,你的电脑能看见手机(adb devices有ID),手机也装好了打字工具。我们来个小测试,确认整条链路畅通:
- 在命令行输入(把
ZY225TDQ8K替换成你自己的设备ID):
手机会立刻回到桌面——这是“点击Home键”;adb -s ZY225TDQ8K shell input keyevent KEYCODE_HOME - 再输入:
打开手机任意一个能输文字的地方(比如备忘录),你会发现“HelloFromAI”已自动出现——这是“远程打字”。adb -s ZY225TDQ8K shell input text "HelloFromAI"
这两步成功,意味着Open-AutoGLM的“手”(点击)和“嘴”(输入)已经校准完毕。接下来,就差给它装上“眼睛”(视觉理解)和“大脑”(任务规划)了。
4. 第三步:启动AI,下达第一条自然语言指令
前面两步是铺路,这一步才是主角登场。我们不再碰ADB命令,而是直接对AI说话——用最平常的中文句子。
4.1 快速拉起控制端(无需GPU,CPU也能跑)
Open-AutoGLM的控制代码非常轻量。你不需要部署大模型,先用智谱官方提供的云端API体验核心能力(免费额度足够试用):
# 1. 克隆代码(只需控制端,不下载大模型) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(几秒钟) pip install -r requirements.txt # 3. 直接运行!(替换为你自己的设备ID) python main.py \ --device-id ZY225TDQ8K \ --base-url https://api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开微信,给文件传输助手发一条消息:你好,AI已就位!"注意:
--base-url这里用了智谱官方API地址,首次使用需去智谱AI官网注册,获取API Key,并在命令前加上:export ZHIPU_API_KEY="your_api_key_here"
(Windows用户用set ZHIPU_API_KEY=your_api_key_here)
你按下回车的瞬间,会发生什么?
- AI先截取你手机当前屏幕(一张图);
- 把这张图和你的文字指令一起发送给云端模型;
- 模型“看”懂屏幕上有微信图标、“看”懂你指令要发消息;
- 规划出动作序列:点击微信图标 → 等待加载 → 点击“文件传输助手” → 点击输入框 → 输入文字 → 点击发送;
- 每一步都通过ADB指令执行,你能在手机上清晰看到AI的手指“点”在哪里、“输”什么字。
整个过程通常在20-40秒内完成,没有黑屏、没有卡顿、没有报错——只有你一句话,和手机上真实发生的操作。
4.2 更自然的用法:交互式对话模式
如果你不想每次改命令行,可以进入聊天模式:
python main.py --interactive \ --device-id ZY225TDQ8K \ --base-url https://api.zhipuai.com/v1 \ --model "autoglm-phone-9b"运行后,你会看到一个类似聊天窗口的提示符:
> 请下达指令(输入 'quit' 退出):这时,你可以像跟朋友说话一样输入:
- “帮我打开小红书,搜‘咖啡拉花教程’”
- “切换到抖音,刷10秒,然后点赞当前视频”
- “回到桌面,长按微信图标,选择‘卸载’”
AI会实时反馈每一步在做什么(“正在识别小红书图标…”、“已点击搜索框…”),你随时可以打断或追问。这种模式特别适合调试、教学,或者给父母演示时边说边看。
5. 三条实用建议,避开新手最常见的坑
刚上手时,有些小细节容易卡住进度。这三条建议,来自真实踩坑记录,帮你省下两小时排查时间:
5.1 别让“省电模式”成为AI的绊脚石
很多安卓手机默认开启“智能省电”或“后台限制”,一旦检测到ADB连接,会自动冻结后台进程。结果就是:AI截图失败、点击无响应、操作卡在半途。
解决方案:去“设置→电池→省电策略”,关闭“智能省电”;再进“设置→应用管理→Phone Agent(或ADB相关)→电池”,选择“不受限制”。
5.2 屏幕分辨率不是越高越好
Open-AutoGLM的视觉模型在1080p分辨率下识别最稳。如果你的手机是2K或更高屏(如三星S23、小米13),AI可能因截图过大而解析变慢,甚至误判按钮位置。
解决方案:在手机“设置→显示→屏幕分辨率”中,临时调至“FHD+(1080×2340)”或“HD+”,测试完成后再调回。这不是降画质,而是为AI提供更友好的输入尺寸。
5.3 敏感操作?AI会主动“举手”等你拍板
当指令涉及支付、删除联系人、清除数据等高危动作时,Open-AutoGLM不会偷偷执行。它会在手机屏幕上弹出一个半透明确认框,写着“检测到敏感操作:删除全部聊天记录。是否继续?[是] [否]”。
这是内置的安全机制,不是Bug。你只需用手指点一下“是”,AI就继续执行;点“否”,它就停下来等新指令。这个设计让自动化既强大,又可控。
6. 你能用它做什么?五个真实可复现的日常场景
别只停留在“发消息”这种基础操作。Open-AutoGLM的真正价值,在于把多个App、多个步骤、多个条件串成一条自动流水线。以下是五个零门槛、即刻可用的场景,你今天就能试:
6.1 场景一:跨平台比价,三步锁定最低价
指令:
“打开淘宝,搜索‘AirPods Pro 二代’,按销量排序,截图前三名价格;再打开拼多多,搜同样关键词,截图最低价;最后把两张图发到微信‘购物比价群’。”
发生了什么:
AI自动在淘宝完成搜索、排序、截图;无缝切到拼多多,重复操作;再打开微信,找到群聊,发送图片。全程无需你切屏、截图、转发。
6.2 场景二:老人专属语音助手
指令:
“帮爷爷挂明天上午九点协和医院呼吸科的号。”
发生了什么:
AI打开北京协和APP → 点击“预约挂号” → 选择“呼吸内科” → 找到“明日” → 筛选“上午”时段 → 选择9:00场次 → 填写爷爷身份证号 → 提交预约。所有操作都在一个App内闭环,老人只需说一句,不用记步骤。
6.3 场景三:自媒体内容一键分发
指令:
“把相册里最新一张照片,发到小红书、微博、朋友圈,标题都写‘今日云朵’。”
发生了什么:
AI读取相册最新图 → 分别打开三个App → 粘贴图片 → 输入统一标题 → 点击发布。不同平台的发布流程(如小红书要加话题、微博要@好友)它都预置好了。
6.4 场景四:会议纪要自动整理
指令:
“打开钉钉,找到昨天下午三点的‘产品周会’群聊,把所有带‘TODO’的文字复制出来,生成表格发到邮箱。”
发生了什么:
AI定位群聊 → 向上翻阅历史消息 → 筛选含“TODO”的语句 → 自动整理成带序号、负责人、截止时间的表格 → 打开邮箱App → 新建邮件 → 粘贴表格 → 发送。从此告别手动抄写。
6.5 场景五:游戏日常任务托管
指令:
“打开原神,领取每日委托奖励,打三次秘境,然后退出。”
发生了什么:
AI识别游戏主界面 → 点击右上角“冒险手册” → 找到“每日委托” → 逐个领取 → 返回地图 → 点击传送锚点 → 进入秘境副本 → 自动战斗(基于屏幕识别敌人血条)→ 退出游戏。你挂机时,它在打工。
7. 总结:从“会用”到“离不开”,只需要一次真实的成功
你可能注意到,这篇文章里没有出现“多模态对齐”、“强化学习策略优化”、“端侧推理量化”这些词。因为对绝大多数人来说,技术的终极价值,不是它有多酷,而是它能不能在你喊出指令的三秒后,让手机屏幕动起来。
Open-AutoGLM 的三步上手逻辑,本质上是一种“信任建立”:
第一步(连接),你确认“它能碰到我的手机”;
第二步(装键盘),你确认“它能替我打字点击”;
第三步(下指令),你亲眼看到“它真的听懂了我的话”。
当第一次看到AI自动打开微信、输入文字、点击发送,那一刻的惊讶和轻松,就是所有技术文档、参数说明、架构图都无法替代的真实反馈。
所以,别等“完全学会再试”。就现在,拿出手机,连上电脑,敲下那行adb devices。当你在命令行里看到自己的设备ID亮起,你就已经走完了最难的一步。
剩下的,只是开口说话而已。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。