news 2026/4/24 8:54:50

腾讯POINTS-Reader:高效中英文档图片转文本模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:高效中英文档图片转文本模型

腾讯POINTS-Reader:高效中英文档图片转文本模型

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布了全新的文档转换视觉语言模型POINTS-Reader,这是一款端到端的轻量级解决方案,能够直接将文档图片精准转换为文本,无需复杂的后处理流程。该模型在中英文场景下均表现出色,同时兼顾了高性能与部署效率,为企业和开发者提供了文档信息提取的新选择。

行业现状:文档理解技术迎来新突破

随着数字化转型的深入,企业和个人对文档信息提取的需求日益增长。传统OCR技术在处理复杂格式文档(如包含表格、公式、多语言混排的文档)时往往力不从心,而主流视觉语言模型(VLM)虽然能力更强,但普遍存在模型体积庞大、部署成本高、需要复杂后处理等问题。根据OmniDocBench等权威评测基准的数据显示,现有解决方案在中文文档处理上的平均错误率比英文高出30%以上,中文场景的精准识别仍是行业痛点。

在此背景下,轻量级、高精度、多语言支持的文档转换模型成为市场刚需。腾讯POINTS-Reader的推出,正是瞄准了这一技术缺口,通过创新的模型设计和训练策略,在保持精简结构的同时实现了性能突破。

产品亮点:四大核心优势重塑文档转换体验

POINTS-Reader作为腾讯混元系列的新成员,展现出四大显著优势:

极简架构与端到端设计

该模型采用高度精简的架构,完全遵循POINTS1.5的结构设计,仅将语言模型部分从Qwen2.5-7B-Instruct替换为更轻量的Qwen2.5-3B-Instruct。输入仅需固定提示词和文档图片,输出直接为最终文本结果,彻底消除了传统 pipeline 所需的复杂后处理步骤,大幅简化了集成流程。这种"输入即图片,输出即文本"的设计,使开发者能够以最低成本实现功能集成。

中英双语卓越性能

POINTS-Reader在权威评测集OmniDocBench上表现优异,英文任务获得0.133分,中文任务获得0.212分(注:该评测指标为越低越好),尤其在中文场景下超越了多数现有解决方案。模型不仅支持纯中文和纯英文文档,还能精准处理中英文混排内容,解决了跨国企业和学术场景中的多语言提取难题。在表格提取任务中,其英文TEDS指标达到83.7,中文达到85.0,显示出对结构化信息的强大理解能力。

高吞吐量与部署灵活性

为平衡性能与效率,POINTS-Reader选用600M参数的NaViT视觉编码器,配合30亿参数的语言模型,在保证识别精度的同时显著降低了计算负载。该模型已支持SGLang部署框架,可实现高并发处理,未来还将支持vLLM等主流推理框架。这种轻量化设计使模型在普通GPU设备上即可高效运行,大幅降低了企业的部署门槛。

开源创新的数据增强策略

腾讯开源了POINTS-Reader的核心技术方案,包括创新性的两阶段数据增强策略。第一阶段利用自动化数据赋予模型基础文档提取能力,第二阶段通过持续自进化提升模型生成数据的质量。这种自进化方法具有高度可扩展性,可应用于几乎任何模型的训练优化,为整个行业提供了宝贵的技术参考。该研究已被EMNLP 2025主会收录,彰显了其学术价值。

行业影响:推动文档智能处理进入新阶段

POINTS-Reader的推出将对多个行业产生深远影响:

在金融领域,银行和保险公司可利用该模型快速提取表单、合同中的关键信息,将处理效率提升50%以上;在教育行业,学术论文的公式和图表识别变得更加精准,助力文献分析和知识图谱构建;在企业办公场景,会议纪要、报告文档的数字化转换将实现全自动化,大幅降低人工成本。

特别值得注意的是,该模型的轻量化特性使其能够部署在边缘设备上,为移动办公、现场执法等场景提供实时文档识别能力。随着vLLM支持的即将推出,其吞吐量还将进一步提升,有望成为企业级文档处理的首选解决方案。

结论与前瞻

腾讯POINTS-Reader凭借精简架构、中英双语高精度、高吞吐量和开源技术策略,重新定义了文档图片转文本的技术标准。其"零后处理"的设计理念和优异性能,不仅解决了当前行业痛点,更为视觉语言模型在专业领域的应用提供了新范式。

未来,随着多语言支持的扩展(计划加入日文、韩文等东亚语言)和复杂文档处理能力的增强(如手写体识别、复杂版面分析),POINTS-Reader有望成为文档智能处理的基础设施,推动更多行业实现数字化转型。开源社区的参与也将加速模型迭代,我们期待看到基于这一技术的创新应用不断涌现。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 21:57:36

Jupyter Notebook自动保存设置防止数据丢失

Jupyter Notebook自动保存设置防止数据丢失 在数据科学和机器学习的日常开发中,谁没有经历过这样的时刻:正全神贯注地调试一段复杂的模型代码,突然浏览器崩溃、网络中断,或者不小心关掉了标签页——再打开时,十几分钟的…

作者头像 李华
网站建设 2026/4/20 16:51:35

测试Miniconda-Python3.10在各类GPU上的兼容性

Miniconda-Python3.10 在多 GPU 架构下的兼容性实测与工程实践 在深度学习和高性能计算日益普及的今天,一个稳定、可复现、跨平台的开发环境已成为团队协作和模型落地的关键。然而,现实中的“在我机器上能跑”问题依然频繁发生——明明代码一致&#xff…

作者头像 李华
网站建设 2026/4/21 16:30:46

Qwen3-4B新模型发布:256K超长上下文AI助手来了

Qwen3-4B新模型发布:256K超长上下文AI助手来了 【免费下载链接】Qwen3-4B-Instruct-2507-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-4B-Instruct-2507-GGUF 导语 阿里云旗下AI团队正式推出Qwen3-4B-Instruct-2507-GGUF模型&#xf…

作者头像 李华
网站建设 2026/4/22 20:52:01

Jupyter Notebook集成PyTorch:基于Miniconda-Python3.11配置

Jupyter Notebook集成PyTorch:基于Miniconda-Python3.11配置 在深度学习项目开发中,一个常见却令人头疼的问题是:为什么代码在同事的机器上跑得好好的,到了自己的环境就报错?张量维度不匹配、CUDA版本冲突、某库找不到…

作者头像 李华
网站建设 2026/4/22 18:12:13

Applite:让Mac软件管理变得前所未有的简单

Applite:让Mac软件管理变得前所未有的简单 【免费下载链接】Applite User-friendly GUI macOS application for Homebrew Casks 项目地址: https://gitcode.com/gh_mirrors/ap/Applite 还在为每次安装新软件而打开终端输入复杂命令感到烦恼吗?App…

作者头像 李华
网站建设 2026/4/24 23:35:33

通俗解释验证平台中 driver 与 sequencer 协作原理

验证平台里 driver 和 sequencer 到底是怎么“搭伙干活”的?你有没有遇到过这种情况:写了一个测试用例,想让 DUT(被测设计)执行一串读写操作,结果信号时序乱七八糟,数据对不上,debug…

作者头像 李华