DeepSeek OCR
DeepSeek OCR 是一款两阶段 Transformer 文档 AI,先将页面图像压缩成紧凑的视觉 Token,再以高容量的专家混合语言模型解码。阶段一融合窗口化 SAM 视觉 Transformer、致密 CLIP-Large 编码器与 16× 卷积压缩器;阶段二使用 DeepSeek-3B-MoE 解码器(每个 Token 激活约 5.7 亿参数),以最小损耗重建文本、HTML 与图示标注。
模型训练覆盖 3000 万页真实 PDF 及合成图表、公式与示意图,可保留版式结构、表格、化学式(SMILES)与几何任务。得益于 CLIP 血统,多模态能力完整保留——即使在激进压缩后,字幕与目标定位仍旧准确。
基准比较
基准研究表明 DeepSeek OCR 可以在结构化文档上提供最先进的准确性,同时保持较低的Token预算。