【网安毕设项目】基于机器学习的恶意 DNS 查询检测与防护系统（基于 DGA 域名分析的设计与实现）-平芜编程栈

摘要：本文设计并实现了一套基于DGA域名分析的恶意DNS查询检测与防护系统。系统采用XGBoost和GBDT机器学习算法，通过提取域名长度、信息熵等特征实现对恶意域名的智能识别。系统包含数据预处理、模型训练、评估检测等模块，并构建了本地DNS代理实现实时阻断功能。测试表明，系统能有效拦截DGA生成的恶意域名，同时不影响正常域名解析。该系统为企业网络边界防护提供了可行的解决方案，具有实际应用价值。

全套资料包含：源码+注释+开发文档+部署指导说明+售后答疑，需要可以私信博主，伸手党勿扰

恶意 DNS 查询检测与防护系统

—— 基于 DGA 域名分析的设计与实现

系统开发文档

1 引言

1.1 研究背景

随着互联网技术的飞速发展，网络已经深度融入社会生活和工业生产的各个领域。然而，网络攻击手段也在不断演化，其中以恶意域名系统（DNS, Domain Name System）查询为代表的攻击方式日益猖獗。DNS 作为互联网的“电话簿”，承担着将域名解析为 IP 地址的重要功能，一旦被攻击者利用，往往会成为恶意通信和攻击行为的隐蔽入口。

在众多 DNS 相关攻击中，基于域名生成算法（Domain Generation Algorithm, DGA）的恶意域名具有极强的隐蔽性和对抗性。攻击者通过 DGA 自动生成大量随机性极高的域名，用于与僵尸网络（Botnet）或恶意控制服务器（C&C Server）通信。这类域名通常具有如下特点：

域名字符串随机性强，可读性差
生命周期短，频繁变化
难以通过传统黑名单方式进行拦截

传统的基于规则或静态黑名单的 DNS 安全防护手段，在面对 DGA 域名时往往效果有限。因此，结合机器学习方法，对 DNS 查询中的域名进行智能分析与实时检测，已经成为当前网络安全领域的重要研究方向。

1.2 研究目的与意义

本系统旨在设计并实现一套恶意 DNS 查询检测与防护系统，通过对 DNS 查询域名进行特征提取与机器学习建模，实现对 DGA 恶意域名的自动识别在此基础上构建可运行的防护机制。

本研究的主要意义体现在以下几个方面：

理论意义

探索基于字符串特征和机器学习算法的 DGA 域名检测方法
对比不同模型（XGBoost 与 GBDT）在恶意 DNS 检测场景下的性能差异

工程实践意义

将机器学习模型与实际 DNS 代理结合，实现“检测 + 防护”的闭环系统
提供可视化界面，降低系统使用门槛，增强可操作性

应用价值

系统可部署于企业或个人网络边界，用于实时 DNS 安全防护
为后续扩展多分类（DGA 家族识别）和威胁溯源提供基础

1.3 系统目标

本系统的总体目标如下：

构建一套完整的恶意 DNS 查询检测流程
利用 DGA 数据集训练高性能检测模型
提供图形化界面，支持数据预处理、模型训练、评估与检测
实现本地 DNS 代理，对恶意域名进行实时阻断

2 相关技术与理论基础

2.1 DNS 工作原理概述

DNS 是一种分布式、层次化的命名系统，用于将人类可读的域名映射为 IP 地址。典型的 DNS 查询流程包括：

客户端向本地 DNS 服务器发起域名查询请求
本地 DNS 若无缓存结果，则向上游 DNS 服务器递归或迭代查询
返回解析结果给客户端

由于 DNS 协议设计之初并未充分考虑安全问题，其查询内容通常是明文传输，极易被攻击者利用进行恶意通信。

2.2 DGA 域名生成算法

DGA 是恶意软件常用的一种技术，其核心思想是：

通过算法周期性生成大量随机域名，攻击者只需控制其中极少数即可实现通信。

DGA 域名通常具有以下特征：

字符分布异常
信息熵较高
不符合自然语言习惯
子域名层级复杂或结构异常

这些特征为基于机器学习的检测方法提供了重要依据。

2.3 机器学习在恶意域名检测中的应用

近年来，机器学习已被广泛应用于恶意域名检测领域，常见方法包括：

统计特征 + 传统分类器（SVM、随机森林、GBDT）
字符级特征 + 深度学习（CNN、RNN）

在工程实践中，树模型（如 XGBoost）由于其训练效率高、性能稳定、对特征工程要求相对友好，被广泛应用于工业级安全检测系统中。

3 系统需求分析

3.1 功能需求分析

系统需满足以下主要功能需求：

数据集管理

支持导入 CSV 格式的 DGA 数据集
自动校验数据完整性

数据预处理

特征提取
数据集划分（训练集 / 测试集）

模型训练

支持 XGBoost 模型
支持 GBDT 模型
可调节训练参数

模型评估

输出分类指标（Precision、Recall、F1-score）
生成混淆矩阵可视化结果

威胁检测

单域名实时检测
返回恶意概率评分

防护功能

构建 DNS 代理
对恶意域名进行阻断并记录日志

3.2 非功能需求分析

易用性：提供图形化界面，操作流程清晰
可扩展性：支持后续引入更多模型和特征
稳定性：长时间运行 DNS 代理不崩溃
可维护性：模块化设计，代码结构清晰

4 系统总体设计

4.1 系统架构设计

系统采用模块化分层架构，主要分为以下几层：

表示层（GUI）

提供用户交互界面
负责参数输入与结果展示

业务逻辑层

数据预处理模块
模型训练与评估模块
威胁检测模块

模型层

已训练模型的加载与推理

网络防护层

DNS 代理
实时拦截恶意查询

4.2 系统流程设计

系统整体运行流程如下：

用户选择数据集
系统执行数据预处理
用户选择模型并训练
系统评估模型性能
用户进行域名检测或启动 DNS 防护

5 系统详细设计与实现

5.1 数据预处理模块设计

5.1.1 特征设计

系统从域名字符串中提取多种统计特征，包括但不限于：

域名长度
信息熵
数字字符比例
元音比例
连续辅音最大长度
唯一字符比例
n-gram 多样性

此外，针对 XGBoost 模型，引入字符级 TF-IDF 特征，以增强模型对字符模式的学习能力。

数据预处理核心代码：

5.2 模型训练模块设计（核心算法两种）

5.2.1 XGBoost 模型

XGBoost 模型采用梯度提升决策树算法，具有如下优势：

对非线性特征建模能力强
对特征尺度不敏感
具备良好的泛化能力

5.2.2 GBDT 模型

GBDT 模型作为对比模型，结构简单、训练稳定，适合作为基线模型使用。

模型训练核心代码：

5.3 模型评估模块设计

系统采用以下指标评估模型性能：

Accuracy
Precision
Recall
F1-score

同时，系统生成混淆矩阵图像，直观展示分类结果。

模型评估核心代码：

5.4 威胁检测与防护模块设计

5.4.1 单域名检测

用户输入域名后，系统即时返回检测结果和恶意评分。

5.4.2 DNS 代理防护机制

系统基于 UDP 构建 DNS 代理，核心流程如下：

接收 DNS 查询请求
提取域名
调用模型进行预测
若判定为恶意，则返回 NXDOMAIN
否则转发至上游 DNS 服务器

6 系统测试与结果分析

6.1 实验环境

操作系统：Windows / Linux
开发语言：Python
主要库：scikit-learn、xgboost、PyQt5

6.2 实验结果分析

实验结果表明：

XGBoost 模型在 Precision 和 Recall 上均优于 GBDT
字符级 TF-IDF 特征显著提升检测性能
系统在实际 DNS 代理运行中能够稳定拦截恶意域名

最终演示效果：

测试步骤：

1. 测试环境准备

1.1 硬件要求

计算机或服务器一台，操作系统：Windows 或 Linux（推荐使用 Windows）
本地环境需要配置好 Python 运行环境，并且安装了项目所需的所有依赖项

1.2 软件要求

Python 3.6 或更高版本
所需 Python 库：scikit-learn,xgboost,pandas,numpy,matplotlib,joblib,PyQt5,dnslib
本地 DNS 代理使用 1053 端口（程序当前监听的是1053）

1.3 系统配置

确保系统已正确启动 DNS 防护代理，并且防火墙允许 UDP 1053 端口的数据包通过。

2. 测试步骤

2.1 确认 DNS 防护代理是否已成功启动

打开终端（Windows 可以使用 PowerShell 或 CMD，Linux 使用终端）。
在终端输入以下命令查看端口 1053 是否被占用：

netstat -ano | findstr :1053

如果端口 1053 被监听，说明防护代理已经成功启动。你应该看到类似以下的输出：

TCP 127.0.0.1:1053 0.0.0.0:0 LISTENING

如果没有输出，说明防护代理没有成功启动，可能需要检查防火墙设置或重新启动代理程序。

2.2 配置 DNS 客户端

配置你的操作系统的 DNS 服务，使得所有的 DNS 查询请求都会通过本地 DNS 防护代理（127.0.0.1:1053）进行。
在 Windows 中：

打开 "网络和共享中心" -> "更改适配器设置"
右键点击当前连接的网络，选择 "属性"
选择 "Internet 协议版本 4 (TCP/IPv4)"，点击 "属性"
在 "使用下面的 DNS 服务器地址" 中填入127.0.0.1作为首选 DNS 服务器地址

在 Linux 中：

编辑/etc/resolv.conf文件，将 DNS 设置为127.0.0.1：

sudo nano /etc/resolv.conf

将内容修改为：

nameserver 127.0.0.1

2.3 测试 DNS 查询

打开命令行工具（Windows 上使用nslookup，Linux 使用dig或nslookup命令）。
测试一个已知的恶意域名（可以使用测试集中的 DGA 域名），例如：

nslookup vp9g5u12j41t3199iq211k7ueb.net 127.0.0.1

如果防护代理工作正常，并且此域名被识别为恶意，应该返回类似以下的响应：

*** Can't find vp9g5u12j41t3199iq211k7ueb.net: No response from server

这表示该恶意域名已经被拦截。
测试一个正常的域名（如google.com）：

nslookup google.com 127.0.0.1

如果 DNS 代理工作正常，应该返回一个有效的 IP 地址。

2.4 查看日志输出

在防护代理启动时，所有的请求都会被记录到日志中。请检查防护代理的日志输出，确认是否正确记录了恶意域名拦截事件。
在日志中，你应该看到类似以下的输出：

[BLOCK] vp9g5u12j41t3199iq211k7ueb.net score=0.85 from=192.168.1.10

这表示恶意域名vp9g5u12j41t3199iq211k7ueb.net被成功拦截，且得分为 0.85。

2.5 测试不同的域名

测试更多恶意域名：

使用多个测试集中的恶意域名进行查询，确保 DNS 代理能够拦截所有恶意域名。

测试更多正常域名：

使用多个正常域名进行查询，确保 DNS 代理能够正常解析这些域名。

3. 测试场景与验证

3.1 恶意域名拦截验证

输入：一个 DGA 生成的恶意域名（例如vp9g5u12j41t3199iq211k7ueb.net）。
预期输出：返回NXDOMAIN或没有响应，表示该域名已被拦截。
验证：在日志中检查是否记录了该域名被拦截的事件。

3.2 正常域名解析验证

输入：一个正常的域名（例如google.com）。
预期输出：返回正常的 IP 地址。
验证：确保 DNS 查询能够成功解析该域名。

3.3 防护日志验证

输入：测试恶意域名的查询请求。
预期输出：在日志中看到相关的拦截记录（例如[BLOCK] domain=vp9g5u12j41t3199iq211k7ueb.net）。
验证：检查日志文件是否正确记录了所有被拦截的恶意域名。

3.4 防护代理稳定性验证

输入：进行长时间的 DNS 查询（例如，每秒查询一个域名）。
预期输出：防护代理能够持续正常拦截恶意域名，并返回正确的查询结果。
验证：确保代理在长时间运行后没有崩溃或出现其他问题。

4. 常见问题排查

4.1 DNS 代理未启动

问题：在查询过程中，始终返回 "No response from server"。
排查：检查防护代理是否已经启动，并确认端口 5353 是否在监听状态。

4.2 防火墙拦截

问题：即使防护代理已经启动，依然无法正常查询。
排查：检查操作系统的防火墙设置，确保 UDP 端口 5353 没有被阻止。

4.3 网络连接问题

问题：DNS 查询没有被正确转发到防护代理。
排查：确认 DNS 配置文件正确，且 DNS 查询请求确实被转发到本机的 5353 端口。

4.4 防护代理崩溃

问题：防护代理在测试过程中崩溃。
排查：查看代理的错误日志，定位崩溃的原因（可能是内存泄漏、线程冲突等问题）。

5. 总结

通过本次测试，验证了 DNS 防护代理系统在拦截恶意域名和解析正常域名方面的功能是否正常。测试结果表明，该系统能够有效地识别并阻断 DGA 生成的恶意域名，且在防护过程中不会对正常域名的解析产生影响。此外，系统的日志功能也能够准确记录拦截事件，有助于后续的安全审计与分析。