腾讯POINTS-Reader:一键搞定中英双语文档转换
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
导语
腾讯混元实验室推出端到端文档转换视觉语言模型POINTS-Reader,以结构精简、无需后处理的特性,实现中英双语文档图片到文本的高效转换,在国际权威评测集OmniDocBench上取得中英双语高分表现。
行业现状
随着数字化办公的普及,文档格式转换已成为企业和个人的高频需求。传统OCR工具往往需要多步骤处理,在复杂排版、多语言混合、公式表格识别等场景下效果有限。近年来,基于视觉语言模型(VLM)的文档理解技术快速发展,逐渐解决了传统方法的痛点,但多数模型存在结构复杂、推理速度慢或对中文支持不足等问题。据行业调研显示,超过68%的企业在处理多语言文档时仍面临格式错乱、内容丢失等问题,亟需高效可靠的解决方案。
模型亮点
POINTS-Reader作为腾讯混元系列的新成员,展现出四大核心优势:
1. 极简架构设计
完全遵循POINTS1.5的精简结构,仅将语言模型部分替换为轻量级的Qwen2.5-3B-Instruct,实现端到端输出。输入仅需固定提示词和文档图片,输出直接为可使用的文本字符串,无需任何后处理步骤,极大降低了集成难度。
2. 中英双语卓越性能
在OmniDocBench评测中,英文文档转换综合得分为0.133,中文达0.212(注:Edit分数越低表示精度越高),尤其在表格识别任务中表现突出,英文Table TEDS指标达83.7,中文达85.0,超越多数专业OCR工具和通用视觉语言模型。
3. 高吞吐量部署支持
采用600M参数的NaViT视觉编码器,结合SGLang推理框架优化,实现了高效推理。官方数据显示,在主流GPU环境下可实现每秒多页文档的处理速度,且即将支持vLLM部署,进一步提升并发处理能力。
4. 开源创新技术方案
提出两阶段数据增强策略:第一阶段利用自动化数据构建基础提取能力,第二阶段通过模型自进化持续提升数据质量。该方法已被EMNLP 2025主会收录,其自进化机制具有高度扩展性,可应用于各类模型优化场景。
行业影响
POINTS-Reader的推出将在多方面推动文档智能处理领域发展:
提升多语言办公效率
针对中英文混合文档的精准识别能力,特别适合跨国企业、学术机构等场景,预计可将文档处理效率提升40%以上,显著降低人工校对成本。
降低技术应用门槛
开源特性和极简接口设计,使开发者无需深厚的OCR专业知识即可快速集成,推动中小微企业实现文档数字化转型。目前HuggingFace模型下载量已突破10万次,社区活跃讨论超过500条。
引领轻量化模型趋势
在保持高性能的同时,600M视觉编码器+3B语言模型的组合,相比同类模型参数规模减少60%以上,为边缘设备部署提供可能,未来有望应用于手机端实时文档扫描等场景。
结论/前瞻
POINTS-Reader通过结构创新和优化策略,在文档转换领域树立了新标杆。随着vLLM支持的上线和社区生态的完善,其应用场景将从静态文档处理扩展到实时协作、智能检索等更广阔领域。值得关注的是,腾讯混元团队开源的两阶段数据增强方法,为行业提供了低成本提升模型能力的新思路,预计将引发新一轮文档理解技术的创新热潮。对于企业用户而言,这款模型的落地不仅能解决实际业务痛点,更能为后续的智能文档分析、知识抽取等高级应用奠定基础。
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考