news 2026/3/10 19:05:27

mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

一.错误描述

在离线环境的服务器中,使用mineru解析文档时,可能会报如下的错误:

HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv4/chinese/ch_PP-OCRv4_det_infer.tar (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7ff1e49af100>, 'Connection to paddleocr.bj.bcebos.com timed out. (connect timeout=None)'))

报这个错误的原因是mineru中使用了百度飞浆的OCR的能力,在解析文档时,会自行下载百度飞浆的模型文件。由于服务器是离线环境,所以在下载模型文件时,会连接超时。

二.文件下载

针对上述问题,我们可以先在有网络的环境,将所需要的模型文件下载好后,再拷贝到离线环境的服务器中。根据本文中错误提示信息,我们发现是需要下载中中和英文的PP-OCRv4这个版本的OCR。本例中一共需要下载了三类模型文件。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)
作用:
检测图像中文字的位置,用矩形框标出文本区域。

下载地址:

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

作用:识别文本区域中的具体文字内容。

下载地址:https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_infer.tar

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

作用:判断文本的方向,进行自动旋转校正。

下载地址:https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar

三.文件拷贝

对于步骤二中已经下载好的三个模型文件,我们可以使用U盘将模型文件拷贝到离线的mineru服务器。本文中是将模型文件服务器的home目录下了。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)

tar -xvf ch_PP-OCRv4_det_infer.tar mkdir -p /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/ cp -R /home/ch_PP-OCRv4_det_infer/* /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

tar -xvf ch_PP-OCRv4_rec_infer.tar mkdir -p /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/ cp -R /home/ch_PP-OCRv4_rec_infer/* /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

tar -xvf ch_ppocr_mobile_v2.0_cls_infer.tar mkdir -p /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/ cp -R /home/ch_ppocr_mobile_v2.0_cls_infer/* /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/

完成以上三个步骤的命令后,我们就把mineru所需要的模型文件拷贝到了相应的目录,此时mineru就可以完成文档解析的操作了。
对于使用docker安装的mineru服务,我们可以使用docker cp命令将所有的模型文件拷贝到容器的/root/.paddleocr/whl/对应的目录下即可。拷贝完成后,最好以此容器为基础来创建一个新的镜像,再以这个新镜像来启动容器,以避免容器重新启动后,拷贝的模型文件又被还原了。

docker cp /home/... container:/root/.paddleocr/...
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 12:07:37

vue3 实时通讯 SSE

/*** 原生 EventSource 轻量封装* 自动重连 & 任意事件监听* 支持自定义请求头&#xff08;通过 URL 参数传递 Authorization&#xff09;*/ export default class SSE {private url: string;private es: EventSource | null;private retry: number;private headers?: Rec…

作者头像 李华
网站建设 2026/3/8 14:25:20

震惊!这家酶制剂工厂竟让同行都慌了

震惊&#xff01;这家酶制剂工厂竟让同行都慌了在竞争日益激烈的生物制造领域&#xff0c;一家位于上海的酶制剂生产企业——上海华上翔洋生物&#xff0c;正以其独特的创新模式与卓越的产品力&#xff0c;悄然改变着行业格局&#xff0c;引发了同行的广泛关注与深度思考。引言…

作者头像 李华
网站建设 2026/3/8 23:01:25

如何解决recv被业务阻塞导致的 netlink 消息丢失问题?

先看源码: 现在的问题已经非常清晰了: recv + 业务处理耦合在 select 线程 → netlink buffer 堆积 → 内核丢消息 → VRRP/BFD 状态误判 → 主备抖动/切换(burst(接口 flap / 链路聚合 / 堆叠切换)时必炸 ) 解决办法: 使用队列的方法解决,在 select 线程中:只“快收包…

作者头像 李华
网站建设 2026/3/7 6:03:01

Claude辅助开发:Rust专家利用AI设计新编程语言Rue

为新编程语言命名"Rue"似乎暗示着对项目前景的怀疑&#xff0c;如果将"Rue"理解为"后悔"的话。但是以对Rust和Ruby on Rails贡献闻名的资深软件开发者史蒂夫克拉布尼克表示&#xff0c;这个名称背后有更深层的含义。"Rust这个名字唤起了几种…

作者头像 李华
网站建设 2026/3/4 14:00:02

AI应用架构师的方法论:AI驱动知识管理的“3阶段”落地模型

AI应用架构师的方法论&#xff1a;AI驱动知识管理的“3阶段”落地模型 一、引言&#xff1a;为什么需要AI驱动的知识管理&#xff1f; 在数字化转型的浪潮中&#xff0c;企业的核心竞争力早已从“资源占有”转向“知识创造与利用”。然而&#xff0c;传统知识管理&#xff08…

作者头像 李华
网站建设 2026/3/4 21:00:07

吐血推荐专科生必用10款一键生成论文工具

吐血推荐专科生必用10款一键生成论文工具 专科生论文写作工具测评&#xff1a;2026年榜单深度解析 随着高校教育的不断深化&#xff0c;专科生在学术写作中的需求日益增长。然而&#xff0c;面对论文选题、文献综述、格式排版等重重挑战&#xff0c;许多学生往往感到力不从心。…

作者头像 李华