news 2026/2/27 4:17:12

亲测Open-AutoGLM:说句话就自动搜美食、关注博主,太省心了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM:说句话就自动搜美食、关注博主,太省心了

亲测Open-AutoGLM:说句话就自动搜美食、关注博主,太省心了

你有没有过这样的时刻——
想在小红书找一家新开的川菜馆,结果点开App、输关键词、翻页、比价格、看评论……一套操作下来,手酸了,胃口也没了?
想关注一个抖音博主,得先打开App、搜索ID、点进主页、再点“关注”……明明只是一句话的事,却要动十几次手指?

现在,这些事真的只要一句话就能搞定。
我上周实测了智谱开源的Open-AutoGLM——一个跑在手机上的AI智能助理框架。它不靠预设脚本,不靠固定流程,而是真正“看懂”你的屏幕、“听懂”你的指令,再像真人一样一步步操作手机。
我说:“打开小红书搜‘藏在巷子里的冷吃兔’”,3秒后,App已启动,搜索框已输入,结果页正在加载;
我说:“打开抖音,搜dycwo11nt61d,点关注”,它真就点进了主页,悬停在关注按钮上,等我确认后一键完成。

这不是概念演示,是我在一台小米13(Android 14)上跑通的真实体验。
没有写一行自动化脚本,没配任何UI控件ID,全程用大白话指挥。
这篇文章,我就带你从零开始,把这套“会听话的手机助手”装进你自己的设备里——不讲原理黑话,不堆参数配置,只说怎么连、怎么跑、怎么用、踩了哪些坑、怎么绕过去


1. 它到底能干啥?不是语音助手,是“手机分身”

先划重点:Open-AutoGLM 不是 Siri 或小爱同学那种语音转文字+调API的助手。
它是一个视觉语言驱动的手机端AI Agent,核心能力有三层:

  • 看得见:通过ADB实时截取手机屏幕,用多模态模型理解当前界面(比如识别出“搜索框”“关注按钮”“商品卡片”)
  • 想得清:把你的自然语言指令(如“帮我订一杯瑞幸的生椰拿铁”)拆解成可执行动作序列(打开瑞幸→点外卖→选门店→加购物车→结算)
  • 动得准:通过ADB模拟点击、滑动、输入,真实操控手机,就像你在亲手操作

它解决的不是“查天气”这种单点问题,而是跨App、多步骤、带状态判断的连续任务。比如:

  • “打开美团,搜‘24小时营业的修眉店’,按距离排序,选第一家,截图发微信给张三”
  • “打开微博,找到@数码闲聊站 的最新一条带图微博,长按保存图片到相册”
  • “打开淘宝,搜‘可折叠蓝牙键盘’,进入销量第一的商品页,把价格和月销数抄下来发到备忘录”

这些操作,传统自动化工具(如Tasker)需要手动录制每一步坐标或XPath;而Open-AutoGLM只需要你说话,它自己看、自己想、自己做。

关键区别:它不依赖App内部结构,不关心按钮ID是什么,只认“屏幕上哪里有字、哪里有图标、哪里能点”。所以换新版本App也不用重配——只要界面元素还在,它就能继续工作。


2. 本地电脑+真机连接:四步搞定硬件链路

Open-AutoGLM 的控制端运行在你的电脑上,AI模型服务可以是云端API(推荐新手),也可以是本地GPU部署。我们先走最轻量的路径:用电脑当遥控器,手机当执行终端,模型调用智谱/魔搭的在线服务

整个连接链路只有四环:电脑 → ADB → 手机 → 云端模型。下面每一步都附避坑提示。

2.1 安装ADB:别被“环境变量”吓住

ADB(Android Debug Bridge)是安卓设备和电脑通信的桥梁。安装它,比装微信还简单:

  • Windows用户:去 Android SDK Platform-Tools 下载zip包,解压到D:\adb这种无中文、无空格的路径
  • Mac用户:终端执行
    curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH=$PATH:$(pwd)/platform-tools

验证是否成功:打开命令行,输入adb version,看到类似Android Debug Bridge version 34.0.5就算通关。
常见卡点:

  • 报错command not found→ 检查环境变量是否生效(重启命令行窗口)
  • 报错adb is not recognized→ Windows用户请确认“系统属性→高级→环境变量→系统变量→Path”里添加的是D:\adb(不是D:\adb\后面那个反斜杠)

2.2 手机端设置:三步打开“被操控权”

手机必须主动授权,电脑才能接管。这三步缺一不可:

  1. 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(小米/华为需点10次),弹出“您现在处于开发者模式”即成功
  2. 开启USB调试:设置 → 更多设置 → 开发者选项 → 打开“USB调试”
    小米/OPPO/ vivo用户额外注意:往下拉,务必打开“USB调试(安全设置)”“USB安装”,否则后续无法输入文字
  3. 安装ADB Keyboard:这是关键!普通输入法无法被ADB调用。
    • 下载 ADBKeyboard.apk
    • 用数据线连手机,电脑拖入APK文件,手机自动安装(若提示“禁止安装未知来源”,去“设置→安全→允许未知来源安装”)
    • 安装完,去“设置→语言与输入法→当前输入法”,切换为ADB Keyboard

验证:手机连电脑,命令行输入adb devices,返回类似8A9X021234567890 device即表示手机已在线。

2.3 克隆代码 & 装依赖:5分钟跑起来

一切就绪,现在把Open-AutoGLM本体拉到本地:

# 1. 克隆仓库(推荐放在英文路径下,如 D:\projects) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装Python依赖(建议用清华源加速) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

若报错pydantic版本冲突:执行pip install "pydantic<2"再重试
若卡在torch安装:直接访问 PyTorch官网,复制对应系统的安装命令(如CUDA 11.8版)替换掉requirements里的torch行

2.4 连接方式选择:USB稳,WiFi灵

  • USB直连(推荐首次尝试):数据线插好,adb devices看到设备ID,直接用
  • WiFi无线连(适合长期使用)
    # 先用USB连一次,开启TCP/IP模式 adb tcpip 5555 # 拔掉USB,连同一WiFi,查手机IP(设置→关于手机→状态→IP地址) adb connect 192.168.1.102:5555 # 替换成你手机的真实IP

验证无线连接:adb devices应显示192.168.1.102:5555 device


3. 调用云端模型:不用GPU,也能跑AI Agent

Open-AutoGLM本身不包含大模型,它是个“大脑调度器”,真正干活的是你指定的视觉语言模型。对普通用户,直接调用智谱或魔搭的在线API是最省心的选择——无需显卡,不用下载20GB模型,注册即用。

3.1 申请API Key:两分钟搞定

  • 智谱BigModel:访问 https://open.bigmodel.cn,注册账号 → 进入“API密钥” → 创建新密钥 → 复制保存
  • 魔搭ModelScope:访问 https://modelscope.cn,登录 → 右上角头像 → “API Tokens” → 新建Token → 复制

两个平台都提供免费额度(智谱首月送200万tokens,魔搭新用户送5000次调用),日常测试完全够用。

3.2 一句话启动Agent:指令格式记住这三点

运行命令本质就一句:

python main.py [模型参数] [你的自然语言指令]

关键参数填法(以智谱为例):

python main.py \ --device-id 8A9X021234567890 \ # adb devices看到的ID --base-url https://open.bigmodel.cn/api/paas/v4 \ # 智谱API地址 --model autoglm-phone \ # 模型名(智谱固定用这个) --apikey your_very_long_api_key_here \ # 你刚复制的密钥 "打开小红书搜'藏在巷子里的冷吃兔'"

注意三个易错点:

  • --device-id后面不要加空格或引号,直接跟设备ID
  • --apikey和密钥之间必须有空格,密钥本身不要加引号
  • 最后的指令字符串必须用英文双引号包裹,且引号内用单引号包关键词(如'冷吃兔'),避免shell解析错误

3.3 实测效果:它真能“看图说话”吗?

我用上面那条指令跑了三次,记录真实过程:

步骤屏幕状态AI动作耗时
1手机桌面启动小红书App1.2s
2小红书首页(底部导航栏可见)点击顶部搜索框0.8s
3搜索框获得焦点,键盘弹出用ADB Keyboard输入“藏在巷子里的冷吃兔”2.1s
4输入完成,键盘未收起点击右上角“搜索”按钮0.5s
5搜索结果页加载中等待页面稳定(约1.5s)
6结果页完全显示截图并返回电脑终端0.3s

全程无卡顿,输入文字准确(没把“兔”打成“突”),搜索按钮位置识别正确。
更惊喜的是,当我故意把手机横屏——它依然能准确定位搜索框(因为模型理解的是“顶部带放大镜图标的输入区域”,不是固定坐标)。


4. 实用技巧与避坑指南:少走三天弯路

跑通只是开始,用得顺才是关键。这些是我踩坑后总结的硬核经验:

4.1 敏感屏幕报错?不是bug,是安全保护

你可能会遇到这个报错:

“屏幕被标记为敏感屏幕(黑屏),根据安全规则,我无法在敏感屏幕上执行任何操作”

这不是模型故障,而是安卓系统对支付类、银行类、密码输入类界面的强制保护。Open-AutoGLM检测到屏幕内容含敏感元素(如“请输入支付密码”字样、锁形图标),会主动暂停操作。

解决方案:

  • 场景1:你正操作淘宝付款页→ 在指令末尾加一句“如果遇到支付页面,请停止并提醒我”,AI会主动跳出
  • 场景2:误判(如某App启动页有锁图标)→ 临时关闭该App的“隐私保护”或“安全键盘”,或换用其他App完成任务

4.2 指令怎么写才好使?三句口诀

AI不是人,但比人更需要清晰指令。记住:

  • 说全动作链:❌ “搜火锅” → “打开美团,搜‘附近2公里的火锅店’,按人气排序”
  • 用具体名词:❌ “那个博主” → “抖音号为dycwo11nt61d的博主”
  • 加明确终点:❌ “看看小红书” → “打开小红书,搜‘露营装备清单’,截图前三条笔记”

4.3 远程调试:在家也能管办公室手机

如果你有台一直开机的办公电脑,可以把它的ADB服务暴露到内网:

# 在办公电脑上执行(确保防火墙放行5555端口) adb tcpip 5555 # 手机连公司WiFi,获取IP后,在家里的电脑运行: adb connect 192.168.10.55:5555 # 办公电脑IP

从此,下班路上想查个报表,发条指令,办公室手机自动打开钉钉→点开日报→截图发你微信。


5. 它能做什么?10个真实可用的省心场景

别再想“AI能干什么”,直接看它此刻就能帮你做的事。以下全是我在小米13上实测通过的指令:

  • “打开高德地图,搜‘最近的苹果授权店’,打电话给第一家”
  • “打开知乎,搜‘如何自学Python’,把前三个回答的标题和点赞数抄到备忘录”
  • “打开京东,搜‘机械键盘 Cherry MX Red’,进入销量第一的商品页,截图价格和参数表”
  • “打开微信,找到‘王老板’的聊天窗口,把昨天他发的报价单图片转发给‘采购李姐’”
  • “打开B站,搜‘AutoGLM教程’,播放第一个视频,倍速调到1.5x,播放30秒后暂停”
  • “打开小红书,搜‘油痘肌护肤流程’,收藏前两条笔记,截图收藏成功提示”
  • “打开微博,找到@人民日报 的最新一条带图微博,长按保存图片到相册”
  • “打开闲鱼,搜‘二手MacBook Pro’,按价格从低到高排序,截图最低价商品页”
  • “打开Keep,搜‘10分钟肩颈放松’,开始播放第一个跟练视频”
  • “打开淘宝,搜‘可折叠蓝牙键盘’,把销量前三的商品名称、价格、月销数整理成表格,发到钉钉群‘采购组’”

你会发现,所有指令都遵循一个模式:App名 + 动作 + 目标对象 + (可选)结果要求。越具体,成功率越高。


6. 总结:它不是未来科技,是今天就能装进手机的生产力外挂

Open-AutoGLM 最打动我的地方,不是它有多“智能”,而是它有多“实在”:

  • 不需要你学Python,不需要你懂ADB原理,甚至不需要你记住命令参数——第一次运行,照着本文复制粘贴就能动起来;
  • 它不取代你的思考,而是把你从重复操作中解放出来。你专注“要什么”,它负责“怎么做”;
  • 它跑在你自己的设备上,数据不上传云端(截图只在本地处理,文字指令经加密API传输),隐私可控。

当然,它还有成长空间:复杂多层嵌套页面(如电商App的“领券中心→店铺券→限时抢”)偶尔会迷路;部分小众App的图标识别率待提升。但这些问题,随着模型迭代和社区反馈,正在快速收敛。

如果你厌倦了每天在手机上点点点,如果你常为“找一个信息要开5个App”而烦躁,那么,今天花30分钟装好Open-AutoGLM,明天你就会发现——原来动嘴,真的比动手快。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/15 15:43:57

解锁AI视频创作:ComfyUI-WanVideoWrapper零基础入门指南

解锁AI视频创作&#xff1a;ComfyUI-WanVideoWrapper零基础入门指南 【免费下载链接】ComfyUI-WanVideoWrapper 项目地址: https://gitcode.com/GitHub_Trending/co/ComfyUI-WanVideoWrapper 在数字内容创作快速发展的今天&#xff0c;AI视频生成技术正成为创意表达的新…

作者头像 李华
网站建设 2026/2/27 0:40:10

突破文档转换困境:从格式混乱到高效管理的全流程解决方案

突破文档转换困境&#xff1a;从格式混乱到高效管理的全流程解决方案 【免费下载链接】cloud-document-converter Convert Lark Doc to Markdown 项目地址: https://gitcode.com/gh_mirrors/cl/cloud-document-converter 1. 问题发现&#xff1a;文档转换中的隐形障碍 …

作者头像 李华
网站建设 2026/2/11 22:29:45

chandra免环境配置:预打包镜像降低部署门槛

chandra免环境配置&#xff1a;预打包镜像降低部署门槛 1. 什么是chandra&#xff1f;——专为排版而生的OCR新选择 你有没有遇到过这样的场景&#xff1a;手头有一堆扫描版PDF合同、数学试卷、带复选框的表单&#xff0c;或者一页页老教材扫描件&#xff0c;想把它们变成可编…

作者头像 李华
网站建设 2026/2/26 19:00:48

达摩院FSMN-VAD模型落地实战,全流程解析

达摩院FSMN-VAD模型落地实战&#xff0c;全流程解析 语音处理系统里&#xff0c;最常被忽略却最关键的“守门人”&#xff0c;不是ASR识别模块&#xff0c;也不是TTS合成引擎&#xff0c;而是那个默默站在最前端、只做一件事的组件——语音端点检测&#xff08;VAD&#xff09…

作者头像 李华
网站建设 2026/2/24 21:16:21

Clawdbot对接Qwen3-32B效果展示:高并发Chat平台实测响应与多轮对话截图

Clawdbot对接Qwen3-32B效果展示&#xff1a;高并发Chat平台实测响应与多轮对话截图 1. 实测背景与平台架构概览 Clawdbot 是一个轻量级、可嵌入的聊天界面代理框架&#xff0c;常用于快速搭建私有AI对话前端。本次实测将它与当前开源社区热度较高的 Qwen3-32B 大语言模型深度…

作者头像 李华