news 2026/7/2 9:58:46

无需显卡!实战 Open-AutoGLM + 智谱 API:让 AI 替我玩手机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
无需显卡!实战 Open-AutoGLM + 智谱 API:让 AI 替我玩手机

Open-AutoGLM仓库地址
以及
我自己的github账号!欢迎交流

前言:当大模型有了“手”

  • 痛点:现在的语音助手(Siri, 小爱)只能做简单的系统指令,无法深入第三方 App(比如“帮我点一杯瑞幸拿铁”)。
  • 引入: Open-AutoGLM不是简单的脚本,而是基于视觉语言模型(VLM),像人眼一样看屏幕,像人手一样点击。
  • 本文目的:分享如何使用普通电脑 + 安卓手机,配合 智谱 BigModel API,低成本体验最新的 Phone Agent 技术。

使用 API 模式

  • 门槛低,对硬件要求低,不需要本地部署
  • 性价比高,智谱对新用户提供充足免费tokens

API 获取

选择智谱bigmodel
官网地址
正常注册即可

准备工作

  • 硬件 安卓手机(测试使用的是vivo S20),windows电脑
  • 环境 Python 3.10,建议隔离环境,使用conda虚拟环境
  • 关键工具 ADB 配置,ADB keyboard下载。

ADB 配置

手机打开开发者模式和USB调试。这个步骤参考Readme即可,没有什么问题。

开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。
USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用
部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.

选择一根比较稳定的USB线连接手机和电脑!
/(ㄒoㄒ)/~~
下载官方 ADB 安装包 安装包,解压到自定义路径,这个路径要记得,马上要用。

windows配置环境变量
参考这个链接 参考链接
在系统环境变量的path上新增后,重新打开系统的命令行,可以正常启动。

输入以下命令可以看到手机设备,说明配置完成。

adb devices

ADB Keyboard 安装

安装链接
这个链接是一个.apk 的文件,在命令行工具中,输入如下命令:

adbinstall-r apk的下载地址,比如“ C:\Users\YourName\Downloads\ADBKeyboard.apk”

回车显示 success,说明安装成功

回到手机,设置-输入法,会看到新的ADK Keyboard 选项,选中即可。

部署核心步骤

项目克隆

在虚拟环境终端运行

gitclone https://github.com/zai-org/Open-AutoGLM.git pipinstall-r requirements.txt

申请 API

官网地址


复制保存新的api key

使用示例
# 使用智谱 BigModelpython main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"autoglm-phone"--apikey"这里输入上面复制的API key,双引号也要保留""打开美团搜索附近的火锅店"

验证模型部署

可能遇到的错误

这里其实遇到了一个报错,该项目是在linux/mac或者标准开发环境下写的,文件保存格式是UTF-8,但是windows默认会用GBK去读,会报错。
使用下面命令来用check_deployment_cn.py脚本测试模型部署是否正确时,会有报错。

python scripts/check_deployment_cn.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"aut oglm-phone"--apikey"这是我的正确的API ,不用管这里"

报错信息

UnicodeDecodeError:'gbk'codec can't decode byte 0xb4inposition80: illegal multibyte sequence

修改方式是
找到check_deployment_cn.py文件中这部分,添加上encoding='utf-8'

withopen(args.messages_file,encoding='utf-8')asf:messages=json.load(f)

验证结果类似于这样的思维链,说明配置成功。

交互模式

由于使用的是云端API,不需要找端口(如果自己部署的模型,可以参考Readme)
使用云端API,启动交互模式的命令为

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"autoglm-phone"--apikey"你的_API_KEY_粘贴在这里"

交互模式就是,不同于上面验证部分,直接跑完关闭,而是有一个提示符 Enter your task: 来等待用户输入

之后就可以正常使用了!

工作原理

简单解释它是怎么工作的:

  • 截图:脚本把手机当前屏幕截图。
  • 分析:发给智谱 BigModel,模型分析 UI 控件坐标(x, y)。
  • 决策:模型决定下一步是点击、滑动还是输入。
  • 执行:通过 ADB 发送指令给手机。

实测结果

这里附上一个我的实测结果:








最终结果

Result: 已经为您找到了一个完整的南京两天一夜旅游攻略!根据矿泉水大军的分享 ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** Result: 已经为您找到了一个完整的南京两天一夜旅游攻略!根据矿泉水大军的分享 ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** ### 沿途推荐: - 梧桐大道:欣赏秋天的梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 ### 沿途推荐: - 梧桐大道:欣赏秋天的梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 ## 📍 **Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东** ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 ## 📍 **Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东** ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 - 先锋书店:打卡网红书店 - 老门东:品尝秦淮八绝、桂花糕等特色小吃 - 先锋书店:打卡网红书店 - 老门东:品尝秦淮八绝、桂花糕等特色小吃 ## 🏨 **住宿建议** ## 🏨 **住宿建议** - 玄武湖附近(地铁线路交汇处):出行便利,交通便利 - 玄武湖附近(地铁线路交汇处):出行便利,交通便利 ## 🍜 **美食推荐** ## 🍜 **美食推荐** 1. **李百蟹蟹黄面夫子庙总店** - 蟹全宴好吃,四种浇头都很香 1. **李百蟹蟹黄面夫子庙总店** - 蟹全宴好吃,四种浇头都很香 2. **金陵家宴传统南京菜** - 地道金陵烤鸭,秘制卤汁薄脆的鸭皮+细嫩多汁的鸭肉 2. **金陵家宴传统南京菜** - 地道金陵烤鸭,秘制卤汁薄脆的鸭皮+细嫩多汁的鸭肉 3. **晚园江南火锅** - 露台位置,欣赏夫子庙美景 3. **晚园江南火锅** - 露台位置,欣赏夫子庙美景 4. **青花瓷盖碗菜** - 九宫格荤素丰富 5. **文德食府** - 汉服拍照,松鼠桂鱼、酸甜适中 5. **文德食府** - 汉服拍照,松鼠桂鱼、酸甜适中 6. **秦淮八绝** - 小鸟胃推荐,一站式品尝南京特色小吃 7. **桂园春桂花糕** - 必吃,糕体松软绵密,不甜 这个攻略涵盖了南京的经典景点和小众打卡地,非常适合周末两天一夜的行程!祝您旅途愉快!🎉

小结

整体而言,效果很让我惊喜。虽然延迟略微有点高,不过应该是调用API的问题,在接受范围内。
由于时间仓促,只是简单尝试了一下,个人认为可玩性和扩展性都很高!
欢迎在评论区讨论,博主也会继续探索,尝试修改代码或提示词,以及本地部署,进一步加深理解的~
(❤ ω ❤)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 4:19:53

应对 API 调用频率限制的自动化优化方案

一、引言:调用频率限制(Rate Limit)的挑战 挑战: 企业微信作为大型平台,对所有外部 API 调用都实施了严格的调用频率限制(Rate Limit),以保护其系统资源和网络稳定性。不同的 API 接…

作者头像 李华
网站建设 2026/6/28 22:14:34

Wan2.2-T2V-A14B如何实现天气系统动态变化模拟

Wan2.2-T2V-A14B 如何实现天气系统动态变化模拟 在影视预演、气象科普和智慧城市的实际需求推动下,人们对“用一句话生成一段逼真自然现象视频”的期待正从幻想变为现实。想象这样一个场景:气象台值班员输入一句“未来两小时,杭州城区将经历一…

作者头像 李华
网站建设 2026/7/1 20:52:22

日期题模版(made by yyf)

日期题通常包括:判断是否为闰年,计算某年某月有多少天,日期自增,遍历日期等,这里给出总结判断是否为闰年首先什么是闰年,闰年具有哪些特征?如果是整百年(如2000,1700&…

作者头像 李华
网站建设 2026/7/1 20:50:38

CppCon 2024 学习:Gazing Beyond Reflection for C++26

1⃣ 第一个片段 源语言构造&#xff08;语法域&#xff09; ^^std::vector<int> ^^int(*)() ^^std::cout ^^std::vector ^^std ^^::理解 这里的 ^^ 是一个元语言标记&#xff0c;表示这是语法结构的占位符&#xff0c;即“元变量”。它们代表的是代码中的语法单元&…

作者头像 李华
网站建设 2026/7/1 20:50:49

c++--_

map

作者头像 李华
网站建设 2026/7/1 10:49:27

Day9 >> 151、反转字符串中的单词 +

代码随想录字符串部分 151、反转字符串中的单词 这道题感觉还挺难的&#xff0c;而且好多种解法啊&#xff0c;Java版本总共给了4种解法&#xff0c;先挑了其中一个较容易理解的解法练习了一遍。 练习的过程中&#xff0c;写删除多余空格方法时&#xff0c;把 while 判断条件…

作者头像 李华