news 2026/6/3 1:12:10

【LLM基础研究】工具02:MinerU

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM基础研究】工具02:MinerU

MinerU 的功能模块可以从多个维度来理解:从服务形态上,它有 CLI 工具、API、桌面端等多种使用方式;从技术架构上,其核心是一个"视觉编码-多模态融合-任务解码"三部分构成的端到端多模态模型。

下面是 MinerU 功能模块的详细介绍。

🧩 MinerU核心能力模块

功能模块核心能力技术实现与特点
📄 版面分析与阅读排序智能识别文档中的标题、段落、图片、表格、页眉、页脚、脚注、目录等元素,并按人类阅读习惯(而非物理位置)排序输出。集成自研的doclayout_yolo布局检测模型和layoutreader阅读顺序排序模块,处理单栏、多栏、跨页等复杂布局能力强、速度快。
📐 表格解析精准识别复杂表格结构(包括无边框表格、合并单元格、旋转表格),并能解析表格内的文本和数字。支持StructTable-InternVL2-1BTableMaster等多个表格模型,可输出HTML格式,方便程序直接读取。
📐 公式识别自动识别文档中的行内和行间公式,并将其精准转换为LaTeX格式代码。采用UniMERNet公式解析引擎,能处理复杂数学符号、化学分子式等科学数据,准确率领先。
🔍 光学字符识别(OCR)针对扫描版PDF、图片型文档或乱码PDF,自动开启OCR功能,将图像中的文字识别为可编辑文本。基于PaddleOCR引擎,支持84-109种语言的检测与识别,包括中、英、日、韩等。
🖼️ 图像与图表提取将文档中的内嵌图片、图表、图示等元素无损提取并单独保存为文件,同时会提取图表的标题和描述文字。优化了图、表与描述文本的匹配逻辑,能准确将标题(如"图1")和脚注与对应的图表关联起来。
⚙️ 多模态融合与解析核心的"大脑"模块,将视觉特征(布局)与文本特征(语义)进行协同处理,实现端到端的文档理解,避免传统OCR流水线式的误差累积。采用“视觉编码-多模态融合-任务解码”的三明治架构。通过交叉注意力机制,让模型"看懂"文档的布局,而不仅仅是识别文字。

🚀 技术架构与先进特性

  • 混合后端 (hybrid backend):自v2.7.0版本起引入,融合了传统 Pipeline 与 VLM 的优势。文本型PDF直接抽取原生文本,扫描版则自动调用OCR,兼顾精度与效率。
  • 原生高分辨率技术 (Native-Res ViT):MinerU 2.0版本采用的新技术,可直接处理原始高清图像而无需压缩或裁剪,确保公式中的角标、密集表格等关键细节被完整捕捉。
  • 硬件高效与多平台支持:模型参数极小(如0.9B),在消费级GPU(如NVIDIA 4090)上即可流畅运行。同时支持纯CPU环境,以及GPU (CUDA)、NPU (CANN) 和 MPS 加速。
  • 自动模型管理:从2.0版本开始,MinerU 提供了模型自动下载与更新机制,无需用户手动配置和干预,极大地降低了使用门槛。
  • 统一中间格式:采用标准化的middle_json格式作为内部数据结构,方便开发者进行二次开发和集成,也确保了生态业务的平滑迁移。

🛠️ 服务与部署形态

MinerU 提供了多种使用方式,以适应不同用户和场景的需求:

服务形态适用场景特点
命令行工具 (CLI)开发者、脚本自动化本地运行,灵活集成到工作流,支持GPU/CPU加速。
开源库 (SDK)Python开发者、RAG应用通过import mineru直接调用,可深度集成到LangChain等框架。
API服务企业应用、云端集成内测中,提供标准的RESTful API,便于与业务系统对接。
桌面客户端个人用户、科研工作者提供图形化界面,开箱即用,无需配置环境。
Docker容器生产环境、私有化部署环境一致,易于编排和弹性伸缩。支持vLLM加速和Gradio WebUI界面。

📂 输入与输出

  • 支持输入格式:PDF, DOC, DOCX, PPT, PPTX, PNG, JPG, JPEG,以及在线PDF文件的URL。
  • 支持输出格式
    • 默认输出:Markdown (md) 和 JSON。
    • 可选输出:HTML, DOCX, LaTeX (tex),以及提取出的所有图片文件。

另外一个工具:PaddleOCR、MMOCR

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 1:12:10

5G NTN原型验证平台设计与SDR技术实现

1. 5G NTN原型验证平台的设计背景与挑战在3GPP Release 17标准中,非地面网络(NTN)被正式纳入5G体系,标志着卫星通信与地面移动网络的深度融合迈出了关键一步。然而,当前5G NTN技术面临三大核心挑战:标准成熟度不足:尽管…

作者头像 李华
网站建设 2026/6/3 1:11:34

Perseus碧蓝航线脚本补丁:终极全皮肤解锁完整指南

Perseus碧蓝航线脚本补丁:终极全皮肤解锁完整指南 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 还在为碧蓝航线每次更新后脚本失效而烦恼吗?🤔 Perseus碧蓝航线脚本补…

作者头像 李华
网站建设 2026/6/3 1:09:28

【助睿实验指导】浏览器市场与用户画像分析-数据加工

一、实验目标通过本次实验,熟悉实验所用数据集的整体结构,掌握半结构化日志类数据的典型特征。熟练掌握文本日志解析、字段拆分与规整的实际操作方法,将零散、无固定格式的原始日志数据转换为规范的结构化数据表。完成多维度数据聚合、新字段…

作者头像 李华
网站建设 2026/6/3 1:08:21

三分钟搞定黑苹果:OpCore-Simplify终极OpenCore配置指南

三分钟搞定黑苹果:OpCore-Simplify终极OpenCore配置指南 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的OpenCore配置而烦恼吗…

作者头像 李华
网站建设 2026/6/3 1:08:03

2026 实测对比|全网热门变声器实测汇总,移动端电脑端全覆盖测评

不管是网游组队开黑、直播间互动、短视频配音,或是日常通话保护隐私,变声器已经成为实用性很高的影音工具。2026 年 AI 音频技术飞速迭代,市面上各类变声软件五花八门,不少新手纠结究竟挑选手机版还是电脑版、免费软件性价比如何。…

作者头像 李华
网站建设 2026/6/3 1:05:09

如何构建面向企业研发协作的规范化设计走查表与设计还原度优化设计系统与视觉资产库流程

如何构建面向企业研发协作的规范化设计走查表与设计还原度优化设计系统与视觉资产库流程 前言 上周五,我和前端开发同学因为一个按钮的圆角弧度争论了整整四十分钟。设计稿上是 border-radius: 12px,开发实现出来的视觉效果看起来像 16px。他坚持说&quo…

作者头像 李华