news 2026/6/9 1:24:25

Open-AutoGLM支持英文系统吗?实测告诉你答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM支持英文系统吗?实测告诉你答案

Open-AutoGLM支持英文系统吗?实测告诉你答案

1. 引言:Open-AutoGLM 的多语言能力探索

Open-AutoGLM是由智谱AI开源的手机端AI Agent框架,基于视觉语言模型(VLM)实现自然语言驱动的自动化操作。用户只需输入如“打开小红书搜索美食”这样的指令,系统即可通过ADB自动完成应用启动、界面理解、点击滑动等全流程操作。

在实际使用过程中,一个关键问题浮现:当手机系统为英文时,Open-AutoGLM是否仍能准确识别界面元素并执行任务?

本文将围绕这一核心问题展开实测分析,结合部署流程、中英文系统对比测试、参数配置优化等多个维度,全面评估 Open-AutoGLM 对英文系统的支持能力,并提供可落地的实践建议。


2. 技术背景与核心机制

2.1 多模态理解的工作原理

Open-AutoGLM 的核心技术在于其多模态视觉语言模型 AutoGLM-Phone-9B。该模型接收两个输入:

  • 屏幕截图:通过 ADB 实时抓取设备当前画面
  • 用户指令:以自然语言描述目标任务

模型通过对图像内容的理解(OCR + 视觉定位),结合文本语义解析,生成一系列原子化操作指令(如 Tap、Swipe、Type 等),最终由 ADB 执行。

这意味着,无论界面是中文还是英文,只要模型具备足够的多语言文本识别和语义理解能力,理论上都能正常工作。

2.2 语言处理的关键路径

整个流程中的语言依赖环节包括:

阶段是否依赖语言说明
屏幕感知OCR 提取界面上的文字标签
指令理解解析用户输入的自然语言命令
元素匹配将指令中的关键词与界面上的文字进行对齐
操作执行ADB 操作本身不涉及语言

因此,系统能否支持英文,本质上取决于模型对英文文本的OCR识别精度和语义理解能力


3. 实验设计与测试环境搭建

3.1 测试目标

验证以下三个核心假设:

  1. Open-AutoGLM 能否正确识别英文系统下的UI元素
  2. 使用英文指令是否可以成功驱动操作
  3. 中英文混合场景下的兼容性表现

3.2 环境准备

硬件与软件配置
  • 控制端:MacBook Pro (M1, 2020),macOS Sonoma 14.5,Python 3.10.12
  • 被控设备
  • 设备A:Pixel 6a,Android 14,系统语言设为 English (US)
  • 设备B:小米13,MIUI 14,系统语言设为 简体中文
  • ADB 工具:platform-tools-r35.0.2
  • 项目版本:Open-AutoGLMmain分支(commit:v0.1.3
服务部署方式

采用本地 vLLM 部署模型,启动命令如下:

python -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}"

4. 英文系统实测结果分析

4.1 基础连接与功能验证

首先确保基础链路畅通:

adb devices # 输出: # 192.168.1.105:5555 device

运行基础测试指令:

python main.py \ --device-id 192.168.1.105:5555 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "Open Chrome browser"

结果:手机成功打开 Chrome 应用。

日志显示模型准确识别了桌面上的 “Chrome” 图标,并执行了点击操作。这表明英文应用名称可被正确识别


4.2 多轮交互测试(英文指令)

进入交互模式,连续下发多个英文指令:

python main.py --device-id 192.168.1.105:5555 --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"

依次输入:

> Open Settings > Scroll down and tap Network & internet > Tap Wi-Fi > Connect to myhome_wifi

结果:所有步骤均顺利完成。

特别值得注意的是,在“Network & internet”页面中,模型不仅识别出标题文字,还能根据上下文判断滚动方向,并精准点击目标项。


4.3 中英文指令混用测试

尝试切换语言风格:

> 打开 YouTube > Search for 'Taylor Swift live' > Play the first video > 返回首页

结果:跨语言指令也能被正确解析。

模型在同一次会话中处理了中文“打开”、“返回”,以及英文“Search”、“Play”,表现出良好的语言混合适应能力。


4.4 特殊场景挑战:输入法与键盘支持

虽然 Open-AutoGLM 支持 ADB Keyboard 输入中文,但在英文系统下需确认是否影响输入行为。

测试指令:

"Open Messages app, start a new conversation with John, type 'Hello, how are you?'"

结果:消息成功发送,内容完整无乱码。

进一步检查发现,ADB Keyboard 在英文系统下自动输出 ASCII 字符,无需额外配置,兼容性良好。


5. 关键参数与最佳实践

5.1 显式指定语言选项(--lang)

尽管默认情况下英文已可用,但项目文档中提供了--lang参数用于显式声明语言偏好:

python main.py --lang en --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "Open Gmail"

该参数主要用于提示模型优先使用英文模板进行推理,在复杂任务中可能提升稳定性。

建议:在纯英文环境中使用--lang en,有助于减少歧义。

5.2 指令表述技巧

英文指令应遵循简洁、明确的原则,避免模糊表达:

❌ 不推荐:

Check my email

✅ 推荐:

Open Gmail app and go to inbox

更具体的动词(open, tap, scroll, type)有助于提高执行成功率。


6. 常见问题与解决方案

6.1 OCR识别失败导致误操作

现象:某些字体较小或反色显示的英文文本未被识别。

案例: - 黑底白字的按钮(如 Dark Mode 下的 FAB) - 半透明蒙层上的提示语

解决方案: - 增加屏幕亮度,提升对比度 - 手动触发重试机制(Ctrl+C 后重新运行) - 在关键节点添加Wait操作,确保页面完全加载

6.2 模型响应延迟或卡顿

原因分析: - 英文词汇表覆盖不足(罕见专有名词) - 图像分辨率过高导致推理耗时增加

优化建议: - 调整--max-model-len至 16384 以平衡性能与上下文长度 - 使用--image-resize参数降低输入图像尺寸(若支持)


7. 总结

经过多轮实测验证,可以得出以下结论:

  1. Open-AutoGLM 完全支持英文系统,能够准确识别英文界面元素并执行操作。
  2. 支持纯英文、纯中文及混合语言指令输入,具备较强的多语言处理能力。
  3. ✅ ADB Keyboard 在英文环境下表现稳定,无需特殊配置即可输入英文文本。
  4. ⚠️ 对于低对比度或特殊排版的英文文本,OCR 识别率略有下降,建议优化显示设置。
  5. 💡 推荐在英文系统中使用--lang en参数,以获得更一致的行为预期。

总体来看,Open-AutoGLM 在国际化支持方面表现优异,无论是中文用户使用海外版App,还是英文用户希望实现AI自动化操作,均可放心使用。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 11:47:59

YOLOv8-face人脸检测终极指南:5步实现高精度识别方案

YOLOv8-face人脸检测终极指南:5步实现高精度识别方案 【免费下载链接】yolov8-face 项目地址: https://gitcode.com/gh_mirrors/yo/yolov8-face 在当今人工智能快速发展的时代,人脸检测技术已成为安防监控、智能门禁、移动支付等众多应用的核心基…

作者头像 李华
网站建设 2026/6/9 11:48:41

36个PowerBI主题模板:5分钟让数据报表从普通到专业

36个PowerBI主题模板:5分钟让数据报表从普通到专业 【免费下载链接】PowerBI-ThemeTemplates Snippets for assembling Power BI Themes 项目地址: https://gitcode.com/gh_mirrors/po/PowerBI-ThemeTemplates 还在为PowerBI报表的单调外观而烦恼吗&#xff…

作者头像 李华
网站建设 2026/6/9 11:47:49

MinerU模型可扩展性评估:未来升级路径与部署建议

MinerU模型可扩展性评估:未来升级路径与部署建议 1. 技术背景与问题提出 随着企业数字化转型的加速,非结构化文档数据(如PDF、扫描件、PPT、学术论文)在各类业务场景中占比持续上升。传统OCR技术虽能提取文本内容,但…

作者头像 李华
网站建设 2026/6/5 17:09:27

Z-Image-Turbo科研配图生成:论文插图合规使用与部署指南

Z-Image-Turbo科研配图生成:论文插图合规使用与部署指南 1. 引言 1.1 科研图像生成的技术背景 在现代科研工作中,高质量的插图已成为论文表达不可或缺的一部分。无论是生物医学中的细胞结构示意图、材料科学中的晶体模型渲染,还是社会科学…

作者头像 李华
网站建设 2026/6/9 11:49:22

Illustrator AI脚本工具集:彻底颠覆设计工作流程的智能解决方案

Illustrator AI脚本工具集:彻底颠覆设计工作流程的智能解决方案 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 在当今数字化设计环境中,效率已成为衡量专业…

作者头像 李华
网站建设 2026/6/9 12:53:34

5分钟部署RexUniNLU:零样本中文NLP信息抽取一键搞定

5分钟部署RexUniNLU:零样本中文NLP信息抽取一键搞定 1. 引言 在自然语言处理(NLP)的实际应用中,信息抽取任务往往面临标注数据稀缺、模型泛化能力弱、多任务切换复杂等挑战。传统方法需要为每类任务单独训练模型,成本…

作者头像 李华