news 2026/5/29 20:44:36

智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

智谱AI正式开源发布GLM-OCR,这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力,为行业提供了高效的专业级OCR解决方案。

核心能力与技术架构

GLM-OCR 采用独特的 “编码器 - 解码器” 架构,通过极致的参数效率实现了性能与成本的双重突破。

关键技术指标

轻量部署:总参数量仅 0.9B,完美支持 vLLM、SGLang 和 Ollama 等主流推理框架,大幅降低了部署门槛。

SOTA性能:在 OmniDocBench V1.5 综合评测中斩获 94.6 分,在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异,性能接近 Gemini-3-Pro(据公开报道)。

极致速度:在同等硬件条件下(单副本单并发),PDF 文档处理吞吐量达 1.86 页/秒,图片处理达 0.67 张/秒。

颠覆性成本:API 调用输入输出同价,仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF,成本仅为传统 OCR 方案的 1/10。

典型场景与落地效果

针对传统 OCR 难以处理的 “硬骨头”,GLM-OCR 进行了深度优化,在多种极端场景下实现了突破。

手写体与公式: 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度,有效解决了科研与教育场景的痛点。

复杂表格解析: 面对跨页、跨单元格及多层表头的复杂表格,GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码,极大提升了数据录入与转换效率。

票据与卡证提取: 支持从各类非结构化票据中智能提取关键字段,并直接输出结构化的 JSON 数据,适配银行、保险及物流系统的自动化需求。

RAG支撑: 其高精度的识别能力与规整的 Markdown/JSON 输出格式,为检索增强生成(RAG)系统提供了高质量的数据底座。

行业应用与接入

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面,智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件,GLM-OCR 将文档处理成本降低至 “白菜价”(1 元可处理海量文档)。未来,团队还将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频 OCR 领域。

AITOP100小编总结

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

文章来源:AITOP100

原文链接:https://www.aitop100.cn/infomation/details/33259.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 9:41:39

提示工程架构师进阶:打造企业级代码生成工具实战

提示工程架构师进阶:打造企业级代码生成工具实战 一、引言 在当今软件开发的快节奏环境中,提高开发效率和质量是每个企业追求的目标。代码生成工具作为一种能够自动化生成部分代码的利器,正逐渐在企业级开发中崭露头角。对于提示工程架构师而言,打造企业级代码生成工具不…

作者头像 李华
网站建设 2026/5/20 13:40:19

自建一个Agent很难吗?一语道破,万语难明

最近花了一周左右的时间给内部的一个传统研发平台接入了 Agent 开发的能力,很多同学对 Agent 的底层实现非常感兴趣,所以此篇给大家介绍下我是怎么做的,希望能对想自建 Agent 的同学有所启发。 因人力原因,有些细节方案问题没太做…

作者头像 李华
网站建设 2026/5/29 12:32:34

【第1章·第14节】自适应PID控制器的simulink建模与仿真1——理论分析

目录 1.自适应PID控制器概述 2.自适应PID控制器的理论分析 2.1 PID控制器误差 2.2 自适应PID控制器调整策略 2.3 自适应PID控制参数更新 1.自适应PID控制器概述 自适应PID控制器核心是通过实时反馈误差,动态调整比例系数kp、积分系数ki、微分系数kd,解决传统PID固定参数…

作者头像 李华
网站建设 2026/5/21 11:52:20

1.5亿,AI原生城市服务平台建设项目

1 月 30 日,福州市鼓楼区AI原生城市服务平台建设项目(一期)中标公告,中标金额:15084.0636万元,中标人:中国移动通信集团福建有限公司福州分公司。一、项目信息:项目名称:…

作者头像 李华
网站建设 2026/5/21 10:42:49

Spring Boot 应用启动速度优化全攻略

一、引言:Spring Boot 启动慢的常见痛点1.1 启动慢的现象本地开发时每次修改代码后重启需要30秒以上测试环境部署时启动时间超过1分钟生产环境容器启动缓慢影响弹性伸缩CI/CD流水线中构建-启动-测试周期过长1.2 启动速度的重要性开发效率:快速反馈循环是…

作者头像 李华