news 2026/5/19 12:40:22

【原创实践】手把手实现 PDF 原版式翻译:PyMuPDF + Ollama 大模型实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【原创实践】手把手实现 PDF 原版式翻译:PyMuPDF + Ollama 大模型实战

一、背景与目标

在处理英文技术文档、论文或说明书时,常见的 PDF 翻译方案存在几个痛点:

  • ❌ 翻译后版式错乱
  • ❌ 图片、公式丢失
  • ❌ 代码、URL 被误翻译
  • ❌ 中文字体无法正常显示
  • ❌ 只能整页 OCR,无法保持原始排版

本文介绍一种基于 PyMuPDF(fitz)+ Ollama 大模型的 PDF 翻译方案,目标是:

逐页、逐文本块翻译 PDF,自然语言翻译为中文,图片与版式完全保持不变
翻译后的效果如下图


二、整体技术方案

技术选型

模块技术
PDF 解析PyMuPDF(fitz)
图片处理PyMuPDF Pixmap
大模型推理Ollama
翻译模型qwen2.5:7b
输出方式重新生成 PDF(逐页)

核心思路

整个流程可拆解为 5 个步骤:

  1. 逐页解析 PDF
  2. 提取文本 span(包含字体、字号、位置)
  3. 提取并复制原始图片
  4. 使用大模型翻译自然语言文本
  5. 在原坐标位置重新绘制文本,生成新 PDF

三、核心类设计:PDFTranslator

整个翻译逻辑被封装在PDFTranslator类中,职责清晰、结构合理。

✅ 必须安装(核心依赖)

pipinstallpymupdf pipinstallollama pipinstallpillow

完整代码

importfitz# PyMuPDFimportosimporttempfilefromPILimportImageimportioimportollamaclassPDFTranslator:def__init__(self,source_pdf_path,model="qwen2.5:7b"):""" 初始化PDF翻译器 Args: source_pdf_path (str): 源PDF文件路径 model (str): Ollama模型名称 """self.source_pdf_path=source_pdf_path self.doc=fitz.open(source_pdf_path)self.model=modeldefextract_text_and_positions(self,page_num):""" 提取指定页面的文本及其位置信息 Args: page_num (int): 页面编号(从0开始) Returns: list: 包含文本块信息的列表 """page=self.doc[page_num]text_blocks=[]# 获取页面上的文本块blocks=page.get_text("dict")["blocks"]forblockinblocks:if"lines"inblock:# 文本块forlineinblock["lines"]:forspaninline["spans"]:text_blocks.append({"text":span["text"],"bbox":span["bbox"],# 边界框 [x0, y0, x1, y1]"size":span["size"],"font":span["font"],"color":span["color"]})returntext_blocksdefextract_images(self,page_num):""" 提取指定页面的图片 Args: page_num (int): 页面编号(从0开始) Returns: list: 包含图片信息的列表 """page=self.doc[page_num]image_list=[]# 获取页面上的图片image_list_raw=page.get_images()forimg_index,imginenumerate(image_list_raw):xref=img[0]pix=fitz.Pixmap(self.doc,xref)# 如果是CMYK图片,转换为RGBifpix.n<5:img_data=pix.tobytes("png")else:pix1=fitz.Pixmap(fitz.csRGB,pix)img_data=pix1.tobytes("png")pix1=None# 获取图片在页面上的位置img_rects=page.get_image_rects(xref)image_info={"image_data":img_data,"rect":img_rects[0]ifimg_rectselseNone,"xref":xref}image_list.append(image_info)pix=Nonereturnimage_listdeftranslate_text(self,text,dest_lang='zh'):""" 使用Ollama大模型翻译文本 Args: text (str): 要翻译的文本 dest_lang (str): 目标语言 Returns: str: 翻译后的文本 """try:# 构建翻译提示,明确要求将英文翻译成中文,只返回翻译结果,保持原文格式prompt=f"""请将以下英文文本翻译成中文,保持原文的格式、空格和标点符号,只返回翻译结果,不要添加任何解释。 翻译要求: 1. 所有代码内容(包括代码块、函数名、类名、变量名、命令、配置项等)必须保持原样,不得翻译。 2. 所有网址(以 http://、https://、www. 开头的链接)必须保持原样,不得翻译。 3. 所有数字保持原样,不得翻译或改写(包括整数、小数、百分比、版本号、时间、日期、编号等)。 4. 保持原文中的空格、换行、缩进等格式,确保翻译后格式一致。 5. 仅翻译自然语言描述性的英文文本,其余内容全部保持不变。 英文文本如下:{text}"""print(f"正在翻译文本:{text[:50]}..."iflen(text)>50elsef"正在翻译文本:{text}")# 调用Ollama模型response=ollama.chat(model=self.model,messages=[{'role':'user','content':prompt}])translated=response['message']['content'].strip()print(f"翻译结果:{translated[:50]}..."iflen(translated)>50elsef"翻译结果:{translated}")returntranslatedexceptExceptionase:print(f"翻译错误:{e}")returntext# 如果翻译失败,返回原文本defcreate_translated_pdf(self,output_path,dest_lang='zh',start_page=0,end_page=None):""" 创建翻译后的PDF文件,保持原有版面布局 Args: output_path (str): 输出PDF文件路径 dest_lang (str): 目标语言 start_page (int): 开始页面(从0开始) end_page (int): 结束页面(从0开始,None表示到最后一页) """# 确定页面范围ifend_pageisNone:end_page=len(self.doc)-1else:end_page=min(end_page,len(self.doc)-1)# 处理指定范围的页面forpage_numinrange(start_page,end_page+1):print(f"正在处理第{page_num+1}页...(共{len(self.doc)}页)")# 创建新的PDF文档new_doc=fitz.open()# 获取原始页面信息original_page=self.doc.load_page(page_num)page_width=original_page.rect.width page_height=original_page.rect.height# 创建新页面new_page=new_doc.new_page(width=page_width,height=page_height)# 复制原始页面的布局和图片original_page=self.doc[page_num]# 复制图片images=self.extract_images(page_num)forimg_infoinimages:ifimg_info["rect"]:# 插入原始图片new_page.insert_image(img_info["rect"],stream=img_info["image_data"])# 提取并翻译文本text_blocks=self.extract_text_and_positions(page_num)# 为了更好地保持版面,我们需要更精确地处理文本forblockintext_blocks:ifblock["text"].strip():# 避免空文本translated_text=self.translate_text(block["text"],dest_lang)# 计算文本位置bbox=block["bbox"]x0,y0,x1,y1=bbox# 创建文本插入点(使用左下角作为基点)# fitz使用笛卡尔坐标系,y轴向上point=fitz.Point(x0,y0+block["size"])# 使用text writer来保持更好的版面# 首先擦除原始文本区域(可选)# 然后插入翻译后的文本# 检查文本是否包含中文字符,如果是,则使用中文字体ifany(ord(char)>127forcharintranslated_text):# 包含非ASCII字符(如中文)try:new_page.insert_text(point,translated_text,fontsize=block["size"],fontname="china-ss",color=(0,0,0)# 强制使用黑色文字以确保可见)except:# 如果内置字体失败,使用默认字体new_page.insert_text(point,translated_text,fontsize=block["size"],color=(0,0,0)# 强制使用黑色文字以确保可见)else:# 如果是英文文本,使用原始字体try:new_page.insert_text(point,translated_text,fontsize=block["size"],fontname=block["font"],color=(0,0,0)# 强制使用黑色文字以确保可见)except:new_page.insert_text(point,translated_text,fontsize=block["size"],color=(0,0,0)# 强制使用黑色文字以确保可见)else:# 如果是空文本,直接复制原始文本(如空格等)bbox=block["bbox"]x0,y0,x1,y1=bbox point=fitz.Point(x0,y0+block["size"])# 对于空文本块,也检查是否包含中文字符ifany(ord(char)>127forcharinblock["text"]):# 包含非ASCII字符(如中文)try:new_page.insert_text(point,block["text"],fontsize=block["size"],fontname="china-ss",color=(0,0,0)# 强制使用黑色文字以确保可见)except:# 如果内置字体失败,使用默认字体new_page.insert_text(point,block["text"],fontsize=block["size"],color=(0,0,0)# 强制使用黑色文字以确保可见)else:# 如果是英文文本,使用原始字体try:new_page.insert_text(point,block["text"],fontsize=block["size"],fontname=block["font"],color=(0,0,0)# 强制使用黑色文字以确保可见)except:new_page.insert_text(point,block["text"],fontsize=block["size"],color=(0,0,0)# 强制使用黑色文字以确保可见)# 为每一页创建单独的PDF文件page_output_path=output_path.replace('.pdf',f'_page_{page_num+1}.pdf')new_doc.save(page_output_path)new_doc.close()print(f"第{page_num+1}页翻译完成,输出文件:{page_output_path}")print(f"所有页面翻译完成!")defget_page_count(self):""" 获取PDF总页数 Returns: int: PDF总页数 """returnlen(self.doc)defclose(self):""" 关闭文档 """ifself.doc:self.doc.close()defmain():# 使用示例source_pdf="1.pdf"output_pdf="translated_1.pdf"# 创建翻译器实例,使用Ollama模型translator=PDFTranslator(source_pdf,model="qwen2.5:7b")try:print(f"PDF总页数:{translator.get_page_count()}")# 翻译PDF并保持版面(只翻译前3页作为示例)translator.create_translated_pdf(output_path=output_pdf,dest_lang='zh',start_page=8,end_page=211# 翻译前3页(0-2))finally:# 关闭文档translator.close()if__name__=="__main__":main()

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/18 19:49:56

社区物业管理升级:HunyuanOCR识别访客身份证完成登记

社区物业管理升级&#xff1a;HunyuanOCR识别访客身份证完成登记 在城市住宅社区的日常管理中&#xff0c;访客登记始终是一个“小切口、大痛点”的环节。清晨快递员频繁进出&#xff0c;傍晚亲友探访&#xff0c;节假日外来服务人员增多——传统纸质登记本不仅翻页费时、字迹难…

作者头像 李华
网站建设 2026/5/13 22:08:35

联合国教科文组织:HunyuanOCR助力濒危语言文献保存

HunyuanOCR&#xff1a;用轻量大模型守护濒危语言文献 在撒哈拉以南非洲的一个小村落里&#xff0c;一位人类学家正小心翼翼地翻阅着一本羊皮卷手稿——这是当地一种即将消亡的语言最后的书面记录。纸张泛黄、字迹斑驳&#xff0c;许多段落已被虫蛀侵蚀。他尝试用手机拍摄后上传…

作者头像 李华
网站建设 2026/5/16 15:42:49

Linux上调试C#程序太痛苦?揭秘企业级跨平台调试最佳实践

第一章&#xff1a;Linux上调试C#程序的现状与挑战在跨平台开发日益普及的背景下&#xff0c;C# 程序在 Linux 环境下的调试需求显著增长。尽管 .NET Core 和后续的 .NET 5 实现了真正的跨平台支持&#xff0c;但 Linux 上的调试体验仍面临诸多挑战。调试工具链的碎片化 Linux …

作者头像 李华
网站建设 2026/5/14 8:54:19

跨境电商助力工具:用HunyuanOCR识别多国商品说明书

跨境电商助力工具&#xff1a;用HunyuanOCR识别多国商品说明书 在跨境电商的日常运营中&#xff0c;一个看似简单却极其耗时的问题反复出现&#xff1a;如何快速、准确地处理来自全球各地的商品说明书&#xff1f;这些文档可能是德文的药品说明、日文的电器标签、法语的化妆品…

作者头像 李华
网站建设 2026/5/11 14:45:28

LINQ合并操作效率翻倍,你必须知道的7种C#集合表达式实战技巧

第一章&#xff1a;LINQ合并操作的核心机制解析LINQ&#xff08;Language Integrated Query&#xff09;在 .NET 中提供了强大的数据查询能力&#xff0c;其中合并操作是处理多个数据源时的关键技术。通过 Concat、Union、Zip 和 Join 等方法&#xff0c;开发者可以高效地整合来…

作者头像 李华
网站建设 2026/5/14 6:40:49

盲人辅助阅读设备:HunyuanOCR实时识别环境文字并朗读

盲人辅助阅读设备&#xff1a;HunyuanOCR实时识别环境文字并朗读 在城市的街头&#xff0c;一位视障者站在公交站牌前&#xff0c;手中握着智能眼镜的控制按钮。他轻声说&#xff1a;“帮我看看下一班车还有多久到&#xff1f;”不到两秒&#xff0c;耳边传来清晰的语音&#…

作者头像 李华