news 2026/2/16 16:17:00

腾讯POINTS-Reader:中英双语文档转文本新突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:中英双语文档转文本新突破

腾讯POINTS-Reader:中英双语文档转文本新突破

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布全新视觉语言模型POINTS-Reader,实现端到端文档转换技术突破,无需复杂后处理即可直接输出结构化文本,为中英文文档信息提取提供高效解决方案。

行业现状:文档理解技术迎来范式转变

随着数字化转型加速,企业和个人对文档信息提取的需求呈爆发式增长。传统OCR技术在处理复杂格式文档时面临诸多挑战,尤其是包含表格、公式和多语言混合的场景。据OmniDocBench基准测试显示,现有解决方案普遍存在处理流程复杂、多语言支持不足、推理速度慢等问题。

近年来,基于大型语言模型(LLM)的视觉语言模型(VLM)逐渐成为文档理解的新方向。这类模型通过统一架构直接处理文档图像,避免了传统 pipeline 中多模块串联导致的错误累积。然而,现有模型要么依赖复杂的蒸馏过程,要么在中文等非英文场景下表现不佳,难以满足实际应用需求。

POINTS-Reader核心亮点解析

1. 极简架构设计,端到端输出无需后处理

POINTS-Reader采用高度精简的模型结构,基于POINTS1.5架构优化而来,将Qwen2.5-7B-Instruct替换为更轻量的3B版本。模型输入仅需固定提示词和文档图像,输出直接为可使用的文本字符串,彻底消除了传统方案中格式校正、内容对齐等后处理环节,大幅简化了应用流程。

2. 中英双语卓越性能,多项指标领先

在权威文档理解基准OmniDocBench上,POINTS-Reader展现出优异性能:英文综合编辑距离(Edit)达到0.133,中文为0.212,尤其在表格提取任务中表现突出,英文表格TEDS指标达83.7,中文更是达到85.0,超越多数现有专业OCR工具和通用视觉语言模型。这一成绩得益于模型对中英双语数据的深度优化,特别是针对中文排版特点的专项调优。

3. 高效推理引擎,兼顾性能与速度

模型采用600M参数的NaViT视觉编码器,在保证识别精度的同时显著提升吞吐量。目前已支持SGLang部署,vLLM支持即将推出,通过主流推理框架优化,实现了高性能与高效率的平衡,解决了大模型在实际应用中的部署难题。

4. 创新数据增强策略,开源技术方案

POINTS-Reader提出两阶段数据增强策略:第一阶段利用自动化数据赋予模型基础文档提取能力,第二阶段通过持续自进化提升模型生成数据质量。这种方法具有高度可扩展性,已被EMNLP 2025主会收录,相关技术细节完全开源,为行业提供了可复用的文档理解模型训练方案。

行业影响:重构文档处理工作流

POINTS-Reader的推出将对多个行业产生深远影响。在金融领域,可快速准确提取报表数据,降低人工录入错误;在教育行业,能高效处理中英文教案和试卷,辅助智能学习系统构建;在法律和医疗行业,可实现合同、病例等专业文档的结构化转换,提升信息检索效率。

尤为值得注意的是,模型对中文场景的深度优化填补了市场空白。与国际同类产品相比,POINTS-Reader在处理竖排文字、复杂表格和专业术语方面表现更优,为中文信息处理提供了技术优势。随着SGLang和vLLM部署支持的完善,模型有望在企业级应用中快速落地,推动文档处理自动化进程。

结论与前瞻

POINTS-Reader通过架构创新和数据策略优化,在文档理解领域实现了"简单架构、卓越性能、高效部署"的三位一体突破。其端到端的处理方式简化了应用流程,中英双语支持拓展了使用场景,而开源策略则促进了技术生态发展。

未来,随着多语言支持的完善和复杂场景处理能力的提升,POINTS-Reader有望成为文档智能处理的基础设施。同时,其两阶段数据增强方法为其他视觉语言模型的优化提供了新思路,推动整个领域向更高效、更实用的方向发展。对于企业用户而言,这款模型的出现意味着更低成本、更高质量的文档处理解决方案,将加速数字化转型进程。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 2:27:44

基于nanopb的高效序列化:资源受限设备完整指南

用 nanopb 打造极致轻量通信:MCU 上的 Protobuf 实战全解析 你有没有遇到过这样的场景? 手里的 STM32 只剩不到 10KB Flash 空间,RAM 不到 4KB,却要通过 LoRa 把传感器数据发出去。你想用 JSON,结果发现光是 &quo…

作者头像 李华
网站建设 2026/2/10 5:08:14

WebSailor:3B小模型攻克网页导航高难任务

WebSailor:3B小模型攻克网页导航高难任务 【免费下载链接】WebSailor-3B 项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B 导语:阿里巴巴NLP团队推出WebSailor训练方法,其3B参数小模型在复杂网页导航任务上实…

作者头像 李华
网站建设 2026/2/13 15:28:01

高校合作项目:将VibeVoice引入计算机课程实验

高校合作项目:将VibeVoice引入计算机课程实验 在人工智能技术不断渗透教育场景的今天,如何让学生真正“触摸”到前沿AI系统,而不仅仅是停留在公式推导与代码复现层面?一个理想的答案或许藏在一个名为 VibeVoice-WEB-UI 的开源语音…

作者头像 李华
网站建设 2026/2/6 21:00:40

5分钟搞定Docker国内镜像源配置

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个极简Docker镜像源快速配置工具,只需选择镜像源提供商(阿里云、腾讯云、华为云等),就能自动生成对应的配置命令。要求:1) 支持一键复制配…

作者头像 李华
网站建设 2026/2/10 12:16:35

混元Image-gguf:8步极速AI绘图,小白也能轻松上手

混元Image-gguf:8步极速AI绘图,小白也能轻松上手 【免费下载链接】hunyuanimage-gguf 项目地址: https://ai.gitcode.com/hf_mirrors/calcuis/hunyuanimage-gguf 导语:腾讯混元Image-gguf模型通过GGUF格式优化,将AI绘图门…

作者头像 李华
网站建设 2026/2/6 9:04:25

如何用LFM2-1.2B快速提取多语言文档信息

如何用LFM2-1.2B快速提取多语言文档信息 【免费下载链接】LFM2-1.2B-Extract 项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-1.2B-Extract 导语:Liquid AI推出轻量级模型LFM2-1.2B-Extract,以12亿参数实现多语言文档信息结构化提取…

作者头像 李华