Apache Tika关键漏洞影响比预想更严重且涉及组件更广-平芜编程栈

广泛使用的Apache Tika XML文档提取工具被发现存在安全漏洞，其影响范围和严重程度都超出最初评估，项目维护者发出了新的安全警告。

新发布的安全警报涉及两个相互关联的漏洞，第一个是去年8月公开的CVE-2025-54988，严重程度评级为8.4，第二个是上周公布的CVE-2025-66516，评级达到最高的10。

CVE-2025-54988是Apache Tika从1.13版本到3.2.1版本（含）的tika-parser-pdf-module模块中的一个安全弱点，该模块用于处理PDF文档。Tika是一个更广泛生态系统中的模块，用于将1000多种专有格式的数据标准化，以便软件工具能够索引和读取它们。

遗憾的是，这种文档处理能力使得该软件成为XML外部实体注入攻击的主要目标，这是此类工具反复出现的安全问题。

在CVE-2025-54988的情况下，攻击者可能通过在恶意PDF中隐藏XML表单架构指令来执行外部实体注入攻击。通过这种方式，"攻击者可能能够读取敏感数据或触发对内部资源或第三方服务器的恶意请求"。攻击者可以利用该漏洞从工具的文档处理管道中检索数据，通过Tika处理恶意PDF来窃取数据。

维护者现在意识到，XXE注入漏洞不仅限于这个模块。它还影响其他Tika组件，即Apache Tika的tika-core（1.13到3.2.1版本）和tika-parsers（1.13到1.28.5版本）。此外，遗留的Tika解析器（1.13到1.28.5版本）也受到影响。

不寻常且令人困惑的是，现在同一个问题有两个CVE编号，第二个CVE-2025-66516是第一个的超集。发布第二个CVE的原因可能是为了提醒已经修补CVE-2025-54988的用户，由于CVE-2025-66516中列出的其他易受攻击组件，他们仍然面临风险。

到目前为止，还没有证据表明这些CVE中的XXE注入弱点正在被野外攻击者利用。然而，风险在于，一旦漏洞被逆向工程或概念验证出现，这种情况可能很快改变。

CVE-2025-66516的严重程度评级为罕见的最高分10.0，这使得对于在其环境中使用此软件的任何人来说，修补它都是优先事项。用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本（独立PDF模块），或者如果使用遗留版本则更新到tika-parsers 2.0.0版本。

然而，修补只能帮助照看已知使用Apache Tika应用程序的开发者。危险在于，其使用可能未在所有应用程序配置文件中列出，从而产生盲点，导致其使用未被发现。对抗这种不确定性的唯一缓解措施是开发者通过tika-config.xml配置文件在其应用程序中关闭XML解析功能。

Q&A

Q1：Apache Tika是什么软件？主要用途是什么？

A：Apache Tika是一个XML文档提取工具，用于将1000多种专有格式的数据标准化，使软件工具能够索引和读取这些文档。它是一个广泛使用的文档处理工具。

Q2：CVE-2025-66516漏洞有多严重？

A：CVE-2025-66516的严重程度评级为罕见的最高分10.0，攻击者可能通过恶意PDF执行外部实体注入攻击，读取敏感数据或触发对内部资源的恶意请求。

Q3：如何修复Apache Tika的安全漏洞？

A：用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本，或遗留版本更新到tika-parsers 2.0.0版本。也可以通过tika-config.xml配置文件关闭XML解析功能作为缓解措施。

使用Miniconda环境部署BERT-Based信息抽取系统

使用Miniconda环境部署BERT-Based信息抽取系统在当今AI工程实践中，一个常见的痛点是：模型在本地训练完美，一到服务器上却“水土不服”——依赖报错、版本冲突、GPU不可用……尤其当项目涉及像BERT这样复杂的深度学习模型时，环境问…

李华

Linux进程与线程：核心差异详解

在Linux系统中，进程（Process）和线程（Thread）是操作系统进行任务调度的核心概念，二者的核心区别体现在资源分配、调度单位、通信方式及开销等方面。以下从技术本质、差异对比和具体示例三方面详细说明&#…

李华

Miniconda环境下运行GPT-NeoX模型的资源配置建议

Miniconda环境下运行GPT-NeoX模型的资源配置建议在大语言模型（LLM）日益普及的今天，越来越多的研究者和工程师开始尝试训练或微调像 GPT-NeoX 这样的开源模型。然而，当真正着手部署时，很多人会发现：明明代码…

李华

Photoshop 图形与图像处理技术——第8章：图像的色彩与色彩调整和图像的输出与优化

目录 8.1图像色彩调整基础 8.1.1 色彩模式的转换 1. 色彩模式转换注意问题 2. 各种色彩模式之间的转换 8.1.2 图像的色调调整 1. 色阶与自动色阶 2. 曲线调整 3. 亮度与对比度命令 4. 色彩平衡 5. 直方图 8.1.3 图像的色相调整 1. 色相 / 饱和度 2. 替换颜色 3. …

李华

利用Miniconda镜像统一团队Python开发环境的最佳策略

利用Miniconda镜像统一团队Python开发环境的最佳策略在数据科学和人工智能项目中，你有没有遇到过这样的场景：同事兴奋地跑来告诉你，“我训练好的模型准确率提升了5%！” 结果你一拉代码、装依赖、运行——报错：“Modul…

李华

使用Miniconda-Python3.10处理万亿级Token语料库的技术路线

使用Miniconda-Python3.10处理万亿级Token语料库的技术路线在大语言模型（LLM）训练迈向“数据为王”的时代，我们面对的已不再是GB级别的文本集合，而是动辄数万亿Token的超大规模语料库。当数据量从“可遍历”走向“只能流式处理”…

李华