news 2026/6/24 21:01:26

腾讯POINTS-GUI-G:重新定义GUI元素精准定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-GUI-G:重新定义GUI元素精准定位

腾讯POINTS-GUI-G:重新定义GUI元素精准定位

【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G

导语:腾讯最新发布的POINTS-GUI-G模型,凭借在多平台GUI元素定位任务中的突破性表现,为智能交互系统与自动化测试领域带来技术革新。

行业现状:随着智能设备与应用场景的多元化,图形用户界面(GUI)已成为人机交互的核心载体。据Gartner预测,到2027年,70%的企业应用将依赖自动化GUI交互技术提升效率。当前主流视觉语言模型虽具备图像理解能力,但在GUI元素精确定位(如按钮坐标提取、界面控件识别)任务中仍存在精度不足、跨平台适配性差等问题,尤其在复杂布局与多设备场景下表现受限。

产品/模型亮点:作为专注于GUI元素定位的多模态模型,POINTS-GUI-G展现出三大核心优势:

首先是卓越的跨平台定位精度。该模型在四大权威GUI基准测试中刷新纪录:ScreenSpot-Pro数据集达59.9分,OSWorld-G数据集66.0分,ScreenSpot-v2数据集95.7分,UI-Vision数据集49.9分,全面超越现有开源及闭源模型。

其次是全栈技术体系构建。不同于基于Qwen3-VL等已有强视觉基础模型的二次开发,POINTS-GUI-G基于原生不具备定位能力的POINTS-1.5模型从零构建,验证了通用基础模型通过定向优化可成长为GUI领域专家的技术路径。

最后是精细化数据工程。针对GUI数据标注中坐标系混乱、任务格式异构、噪声标注等行业痛点,腾讯团队构建了统一数据处理 pipeline:将所有坐标标准化至[0,1]范围,将多任务格式统一为"定位UI元素"指令,通过自动化过滤与合成难例提升模型鲁棒性。

这张性能对比图直观展示了POINTS-GUI-G-8B在各权威测试集上的领先优势,特别是在ScreenSpot-v2数据集上达到95.7分的高精度,印证了其在标准界面场景下的定位可靠性。对于开发者而言,这些量化指标为技术选型提供了关键参考。

在实际应用中,POINTS-GUI-G展现出强大的跨场景适应能力。无论是桌面应用的复杂菜单、移动端的触控界面,还是网页端的动态元素,模型均能精准识别用户指令对应的GUI元素位置。例如在网页界面中,面对"关闭当前窗口"、"点击搜索按钮"等自然语言指令,模型可输出归一化坐标,直接驱动自动化操作。

该组截图展示了POINTS-GUI-G可处理的典型应用场景,包括代码托管平台、移动应用商店和办公软件界面。这些复杂界面包含丰富的交互元素,模型能准确解析并定位目标控件,为自动化测试、无障碍辅助等场景提供技术支撑。

行业影响:POINTS-GUI-G的推出将加速人机交互智能化进程。在软件测试领域,其高精度定位能力可将GUI自动化测试的脚本生成效率提升300%;在无障碍技术领域,可为视障用户提供实时界面元素定位导航;在智能座舱场景中,能实现语音指令到车载界面控件的精准映射。随着模型的开源部署,预计将催生一批基于GUI理解的创新应用,推动交互范式从"人适应界面"向"界面适应人"转变。

结论/前瞻:作为GUI定位领域的技术突破,POINTS-GUI-G不仅展现了腾讯在多模态模型领域的技术实力,更构建了从通用基础模型到垂直领域专家的完整技术路径。随着端到端GUI智能体的研发推进,未来用户有望通过自然语言实现跨平台、跨应用的无缝交互,真正实现"所想即所得"的智能交互体验。对于企业而言,及早布局基于该技术的应用开发,将在智能化转型中获得先发优势。

【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 23:13:25

动态壁纸创作:用Nugget释放你的数字表达力

动态壁纸创作:用Nugget释放你的数字表达力 【免费下载链接】Nugget Unlock the fullest potential of your device 项目地址: https://gitcode.com/gh_mirrors/nug/Nugget 你是否曾想过,每天唤醒手机时看到的不仅是一张图片,而是一段能…

作者头像 李华
网站建设 2026/6/22 10:05:55

100亿参数的STEP3-VL:重新定义多模态智能新标杆

100亿参数的STEP3-VL:重新定义多模态智能新标杆 【免费下载链接】Step3-VL-10B 项目地址: https://ai.gitcode.com/StepFun/Step3-VL-10B 导语:StepFun AI推出的100亿参数多模态大模型STEP3-VL-10B,以其轻量化设计实现了与数十倍参数…

作者头像 李华
网站建设 2026/6/24 0:04:40

Spring Boot依赖清理高效精简指南:从诊断到优化的全流程实践

Spring Boot依赖清理高效精简指南:从诊断到优化的全流程实践 【免费下载链接】spring-ai An Application Framework for AI Engineering 项目地址: https://gitcode.com/GitHub_Trending/spr/spring-ai Spring Boot依赖清理是保障项目轻量级部署、提升构建效…

作者头像 李华
网站建设 2026/6/23 20:46:51

颠覆传统:极速工具uv如何重塑开发效率

颠覆传统:极速工具uv如何重塑开发效率 【免费下载链接】uv An extremely fast Python package installer and resolver, written in Rust. 项目地址: https://gitcode.com/GitHub_Trending/uv/uv 在当今快节奏的软件开发环境中,依赖管理工具的效率…

作者头像 李华