腾讯POINTS-Reader：一键搞定中英双语文档转换-平芜编程栈

腾讯POINTS-Reader：一键搞定中英双语文档转换

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

导语

腾讯混元实验室推出端到端文档转换视觉语言模型POINTS-Reader，以结构精简、无需后处理的特性，实现中英双语文档图片到文本的高效转换，在国际权威评测集OmniDocBench上取得中英双语高分表现。

行业现状

随着数字化办公的普及，文档格式转换已成为企业和个人的高频需求。传统OCR工具往往需要多步骤处理，在复杂排版、多语言混合、公式表格识别等场景下效果有限。近年来，基于视觉语言模型（VLM）的文档理解技术快速发展，逐渐解决了传统方法的痛点，但多数模型存在结构复杂、推理速度慢或对中文支持不足等问题。据行业调研显示，超过68%的企业在处理多语言文档时仍面临格式错乱、内容丢失等问题，亟需高效可靠的解决方案。

模型亮点

POINTS-Reader作为腾讯混元系列的新成员，展现出四大核心优势：

1. 极简架构设计
完全遵循POINTS1.5的精简结构，仅将语言模型部分替换为轻量级的Qwen2.5-3B-Instruct，实现端到端输出。输入仅需固定提示词和文档图片，输出直接为可使用的文本字符串，无需任何后处理步骤，极大降低了集成难度。

2. 中英双语卓越性能
在OmniDocBench评测中，英文文档转换综合得分为0.133，中文达0.212（注：Edit分数越低表示精度越高），尤其在表格识别任务中表现突出，英文Table TEDS指标达83.7，中文达85.0，超越多数专业OCR工具和通用视觉语言模型。

3. 高吞吐量部署支持
采用600M参数的NaViT视觉编码器，结合SGLang推理框架优化，实现了高效推理。官方数据显示，在主流GPU环境下可实现每秒多页文档的处理速度，且即将支持vLLM部署，进一步提升并发处理能力。

4. 开源创新技术方案
提出两阶段数据增强策略：第一阶段利用自动化数据构建基础提取能力，第二阶段通过模型自进化持续提升数据质量。该方法已被EMNLP 2025主会收录，其自进化机制具有高度扩展性，可应用于各类模型优化场景。

行业影响

POINTS-Reader的推出将在多方面推动文档智能处理领域发展：

提升多语言办公效率
针对中英文混合文档的精准识别能力，特别适合跨国企业、学术机构等场景，预计可将文档处理效率提升40%以上，显著降低人工校对成本。

降低技术应用门槛
开源特性和极简接口设计，使开发者无需深厚的OCR专业知识即可快速集成，推动中小微企业实现文档数字化转型。目前HuggingFace模型下载量已突破10万次，社区活跃讨论超过500条。

引领轻量化模型趋势
在保持高性能的同时，600M视觉编码器+3B语言模型的组合，相比同类模型参数规模减少60%以上，为边缘设备部署提供可能，未来有望应用于手机端实时文档扫描等场景。

结论/前瞻

POINTS-Reader通过结构创新和优化策略，在文档转换领域树立了新标杆。随着vLLM支持的上线和社区生态的完善，其应用场景将从静态文档处理扩展到实时协作、智能检索等更广阔领域。值得关注的是，腾讯混元团队开源的两阶段数据增强方法，为行业提供了低成本提升模型能力的新思路，预计将引发新一轮文档理解技术的创新热潮。对于企业用户而言，这款模型的落地不仅能解决实际业务痛点，更能为后续的智能文档分析、知识抽取等高级应用奠定基础。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考