批量处理文档翻译任务：基于glm-4-9b-chat-1m的自动化脚本编写-平芜编程栈

批量处理文档翻译任务：基于glm-4-9b-chat-1m的自动化脚本编写

1. 为什么需要批量文档翻译自动化？

你有没有遇到过这样的场景：手头堆着几十份PDF合同、上百页的技术白皮书、或是成批的用户手册，全部需要从英文翻成中文？人工翻译耗时耗力，找外包又贵又慢，用网页翻译工具还得一页页复制粘贴——光是格式错乱、段落丢失、术语不统一这些问题就足够让人抓狂。

更现实的问题是：很多专业文档里夹杂着代码块、表格、数学公式和特殊符号，普通翻译工具一碰就“懵”。而GLM-4-9B-Chat-1M这个模型，恰恰在长文本理解、多语言支持和结构化内容处理上表现突出。它不是简单地“逐句替换”，而是能真正读懂上下文、识别技术术语、保留原始排版逻辑。

本文不讲空泛概念，也不堆砌参数指标。我会带你从零写一个真正能跑起来的Python脚本，实现：
自动读取整个文件夹里的Word/PDF/Markdown文档
按章节/段落智能切分，避免超长文本截断
调用本地部署的glm-4-9b-chat-1m模型完成高质量翻译
保持原文格式结构（标题层级、列表缩进、代码块标记）
生成带时间戳的翻译报告，失败项自动重试

整个过程不需要你懂vLLM底层原理，也不用配置GPU显存，只要会复制粘贴几行命令，就能让AI替你干完80%的重复劳动。

2. 模型能力与部署环境确认

2.1 GLM-4-9B-Chat-1M到底强在哪？

先说结论：它不是“又一个大模型”，而是专为真实业务文档处理设计的重型工具。

超长上下文不是噱头：支持100万token（约200万中文字符），意味着你能把整本《Kubernetes权威指南》（近800页）一次性喂给它，它依然能准确记住第1页定义的术语，在第700页的代码注释里保持一致翻译。
多语言不是摆设：实测对日语技术文档、德语专利说明书、韩语产品规格书的翻译准确率明显高于通用模型，尤其擅长处理复合长句和被动语态。
结构感知是关键：它能区分“这是代码块”“这是表格第一行”“这是章节标题”，不会把for (let i = 0; i < n; i++)翻译成“为了（让）我等于零；我小于n；我增加）”，而是原样保留并只翻译周边说明文字。

这些能力不是靠玄学，而是来自智谱AI在训练数据中大量注入的工程文档、开源项目README、学术论文附录等真实语料。它见过太多你正在处理的这类文本。

2.2 确认你的环境已就绪

别急着写代码，先花2分钟验证基础服务是否正常——这是后续所有自动化的前提。

打开终端，执行：

cat /root/workspace/llm.log

如果看到类似这样的输出，说明vLLM服务已成功加载glm-4-9b-chat-1m模型：

INFO 01-26 14:22:33 [engine.py:156] Started engine with config: model='THUDM/glm-4-9b-chat-1m', tensor_parallel_size=2, max_model_len=1048576 INFO 01-26 14:22:41 [http_server.py:123] HTTP server started at http://0.0.0.0:8000

注意：max_model_len=1048576是关键标识，代表1M上下文已启用。如果显示的是32768或其他小数值，说明你运行的不是1M版本镜像。

接着，访问http://<你的服务器IP>:8000，你应该能看到Chainlit前端界面。随便输入一句：“请把下面这段英文翻译成中文：The API supports streaming responses and batch processing.” —— 如果返回流畅、准确的中文，且响应时间在3秒内，恭喜，你的“翻译工厂”已经通电待命。

3. 文档预处理：让AI读懂你的文件

3.1 为什么不能直接扔PDF给模型？

PDF不是纯文本。它包含字体嵌入、图层叠加、扫描图像、加密保护……直接喂给大模型，大概率得到一堆乱码或报错。我们必须先把它“解包”成AI能理解的结构化文本。

我们采用分层处理策略：

文件类型	处理方式	关键目标
Word (.docx)	使用`python-docx`库	提取标题样式（Heading 1/2）、列表编号、表格结构、代码块标记
PDF (.pdf)	使用`pymupdf`（fitz）	区分文本流/图像/公式区域，跳过扫描页，保留段落顺序
Markdown (.md)	直接读取+正则清洗	识别`code`块、表格分隔符、引用块，避免误译

3.2 编写预处理脚本（核心代码）

创建preprocess.py，专注做一件事：把各种格式统一转成带结构标记的纯文本。

# preprocess.py import fitz # PyMuPDF from docx import Document import re def extract_from_pdf(pdf_path): """提取PDF文本，智能跳过扫描页""" doc = fitz.open(pdf_path) full_text = "" for page_num in range(len(doc)): page = doc[page_num] text = page.get_text() # 粗略判断是否为扫描页（文本量极少） if len(text.strip()) < 50: continue full_text += f"\n--- 第{page_num + 1}页 ---\n{text}" return full_text def extract_from_docx(docx_path): """提取Word文档，保留标题层级和列表""" doc = Document(docx_path) full_text = "" for para in doc.paragraphs: # 标记标题（根据样式名） if para.style.name.startswith('Heading'): level = para.style.name.split()[-1] full_text += f"\n{'#' * int(level)} {para.text}\n" elif para.style.name == 'List Paragraph': full_text += f"\n- {para.text}\n" else: full_text += f"\n{para.text}\n" # 提取表格 for table in doc.tables: for row in table.rows: cells = [cell.text.strip() for cell in row.cells] full_text += "| " + " | ".join(cells) + " |\n" return full_text def clean_text(raw_text): """清洗文本：合并换行、删除多余空格、标记代码块""" # 合并连续空行 cleaned = re.sub(r'\n\s*\n', '\n\n', raw_text) # 标记代码块（简化版，实际可扩展） cleaned = re.sub(r'```(\w*)\n([\s\S]*?)```', r'```CODE:\1\n\2```', cleaned) return cleaned.strip() # 使用示例 if __name__ == "__main__": # 自动识别文件类型并处理 import sys if len(sys.argv) != 2: print("用法: python preprocess.py <文件路径>") exit(1) file_path = sys.argv[1] if file_path.endswith('.pdf'): text = extract_from_pdf(file_path) elif file_path.endswith('.docx'): text = extract_from_docx(file_path) elif file_path.endswith('.md'): with open(file_path, 'r', encoding='utf-8') as f: text = f.read() else: raise ValueError("仅支持 .pdf, .docx, .md 格式") cleaned = clean_text(text) print(f"预处理完成！共提取 {len(cleaned)} 字符") # 保存为中间文件，供翻译脚本使用 with open("temp_cleaned.txt", "w", encoding="utf-8") as f: f.write(cleaned)

运行它：

python preprocess.py ./manuals/user_guide.pdf

你会得到一个temp_cleaned.txt，里面是干净、有结构的文本，比如：

# 用户手册 ## 1. 快速开始 - 下载安装包 - 双击运行 setup.exe - 按照向导完成配置 ## 2. 高级配置 ### 2.1 网络设置 ```CODE:yaml network: timeout: 30s retry: 3

这个结构，就是接下来翻译脚本的“原材料”。 ## 4. 构建翻译引擎：调用本地GLM模型 ### 4.1 为什么不用API，而要直连vLLM？ - **速度**：本地vLLM响应延迟通常<1秒，远快于网络请求+排队+反向代理 - **隐私**：敏感文档（合同、源码、内部规范）全程不离开你的服务器 - **可控性**：可以精确控制temperature（随机性）、max_tokens（输出长度）、stop字符串（防止AI胡说） 我们绕过Chainlit前端，直接调用vLLM的OpenAI兼容API接口（默认地址：`http://localhost:8000/v1`）。 ### 4.2 核心翻译函数（含容错与分块） 创建 `translate.py`，这是整个流程的“心脏”： ```python # translate.py import requests import json import time from typing import List, Tuple # vLLM服务地址（确保与你的部署一致） VLLM_API_URL = "http://localhost:8000/v1/chat/completions" def split_into_chunks(text: str, max_chars: int = 8000) -> List[str]: """按语义切分文本，避免在句子中间截断""" chunks = [] paragraphs = text.split('\n') current_chunk = "" for para in paragraphs: if len(current_chunk) + len(para) + 1 < max_chars: current_chunk += para + "\n" else: if current_chunk: chunks.append(current_chunk.strip()) current_chunk = para + "\n" if current_chunk: chunks.append(current_chunk.strip()) return chunks def call_glm_translation(chunk: str, target_lang: str = "中文") -> str: """调用GLM模型进行翻译，带重试机制""" # 构造符合GLM-4-9B-Chat要求的提示词 system_prompt = f"""你是一位专业的技术文档翻译专家。请将以下内容准确、专业地翻译成{target_lang}。 要求： 1. 严格保留原文的标题层级（#、##）、列表符号（-、*）、代码块（```）和表格格式； 2. 技术术语必须统一（如 Kubernetes 不译作“柯伯耐提斯”）； 3. 不要添加任何解释、总结或额外内容； 4. 如果遇到无法识别的内容，请原样保留并用【原文】标注。""" messages = [ {"role": "system", "content": system_prompt}, {"role": "user", "content": f"请翻译以下内容：\n{chunk}"} ] payload = { "model": "glm-4-9b-chat-1m", "messages": messages, "temperature": 0.1, # 低随机性，保证术语稳定 "max_tokens": 4096, "stream": False } for attempt in range(3): # 最多重试3次 try: response = requests.post( VLLM_API_URL, json=payload, timeout=120 ) response.raise_for_status() result = response.json() return result["choices"][0]["message"]["content"].strip() except Exception as e: print(f"第{attempt+1}次调用失败: {e}") if attempt < 2: time.sleep(2) # 等待后重试 else: return f"【翻译失败】{chunk[:50]}..." return "" def translate_document(input_file: str, output_file: str, lang: str = "中文"): """主翻译函数：预处理 → 分块 → 调用GLM → 合并结果""" # 步骤1：预处理 print("步骤1：预处理文档...") import subprocess subprocess.run(["python", "preprocess.py", input_file]) # 步骤2：读取预处理后的文本 with open("temp_cleaned.txt", "r", encoding="utf-8") as f: raw_text = f.read() # 步骤3：智能分块（避免超过1M上下文但留足余量） print("步骤2：智能分块...") chunks = split_into_chunks(raw_text, max_chars=80000) # 为prompt留空间 print(f"共分为 {len(chunks)} 块") # 步骤4：逐块翻译 print("步骤3：调用GLM模型翻译...") translated_chunks = [] for i, chunk in enumerate(chunks): print(f" 正在翻译第 {i+1}/{len(chunks)} 块...") translated = call_glm_translation(chunk, lang) translated_chunks.append(translated) # 防止请求过于密集 time.sleep(0.5) # 步骤5：合并并保存 final_result = "\n\n".join(translated_chunks) with open(output_file, "w", encoding="utf-8") as f: f.write(final_result) print(f" 翻译完成！结果已保存至 {output_file}") # 使用示例 if __name__ == "__main__": import sys if len(sys.argv) < 3: print("用法: python translate.py <输入文件> <输出文件> [目标语言，默认中文]") exit(1) input_path = sys.argv[1] output_path = sys.argv[2] lang = sys.argv[3] if len(sys.argv) > 3 else "中文" translate_document(input_path, output_path, lang)

4.3 一次调用，批量处理

现在，把所有文档丢进一个文件夹，写个简单的批量脚本batch_translate.py：

# batch_translate.py import os import glob from translate import translate_document def main(): input_dir = "./input_docs/" # 存放待翻译文档的文件夹 output_dir = "./translated/" # 翻译结果存放位置 # 创建输出目录 os.makedirs(output_dir, exist_ok=True) # 支持的格式 patterns = ["*.pdf", "*.docx", "*.md"] all_files = [] for pattern in patterns: all_files.extend(glob.glob(os.path.join(input_dir, pattern))) print(f"发现 {len(all_files)} 个待翻译文件") for file_path in all_files: # 生成输出文件名 base_name = os.path.basename(file_path) name_no_ext = os.path.splitext(base_name)[0] output_file = os.path.join(output_dir, f"{name_no_ext}_zh.md") print(f"\n 开始处理: {base_name}") try: translate_document(file_path, output_file, "中文") except Exception as e: print(f"❌ 处理失败: {e}") # 记录错误到日志 with open("./translation_errors.log", "a") as log: log.write(f"{file_path} -> {e}\n") if __name__ == "__main__": main()

把你的PDF/Word文档放进./input_docs/，运行：

python batch_translate.py

几分钟后，./translated/文件夹里就会出现格式完整、术语统一的中文文档。你可以直接用Typora打开查看效果，或者用pandoc转成PDF交付。

5. 实战效果与优化建议

5.1 真实案例对比

我们用一份真实的《Rust编程语言标准库文档》片段做了测试（英文原文约1200字，含代码块和列表）：

传统网页翻译：
- 代码块被当作普通文本翻译，impl<T> Iterator for std::ops::Range<T>变成“实施迭代器为标准::操作::范围 ”
- 列表序号错乱，第二级列表变成“1.1.1”
- 术语不统一：“trait”有时译“特征”，有时译“特质”
本方案（GLM-4-9B-Chat-1M）：
- 代码块原样保留，仅翻译周边说明文字
- 列表层级完美对应，-和*符号正确识别
- “trait” 全文统一译为“特性”（符合Rust中文社区惯例）
- 输出格式为标准Markdown，可直接集成进文档网站

5.2 你可能遇到的问题与对策

问题现象	原因	解决方案
翻译卡住，长时间无响应	某块文本含大量不可见字符（如PDF复制残留）	在`clean_text()`函数中加入`text.encode('utf-8', errors='ignore').decode('utf-8')`过滤
中文标点被替换成英文	GLM在某些上下文中偏好英文标点	在system prompt末尾追加：“所有标点符号必须使用中文全角符号（，。！？；：“”‘’）”
长表格翻译错行	表格文本被错误切分	修改`split_into_chunks`，检测`
术语不一致	模型未学习你的专属词汇表	在system prompt中添加：“以下术语必须按此翻译：Kubernetes→Kubernetes（不译），CRD→自定义资源定义，Pod→Pod（不译）”