大家读完觉得有帮助记得关注和点赞!!!
摘要
无线通信系统的开放和广播特性,在实现泛在连接的同时,也使其容易受到干扰攻击,这可能严重损害网络性能或破坏服务可用性。无人机(UAV)的激增为这一威胁增加了新的维度,因为无人机可以作为移动的智能干扰器,利用视距(LoS)信道和自适应策略发起复杂的攻击。本文探讨了在能量受限的环境反向散射通信系统中应对智能无人机干扰的关键挑战。传统的抗干扰技术通常难以应对这种动态威胁,或者不适用于低功耗反向散射设备。因此,我们提出了一种基于深度强化学习(DRL)的新型抗干扰框架,使发送方不仅能够防御,还能策略性地利用无人机的干扰信号。具体来说,我们的方法允许发送方学习一种最优策略,以在主动传输、从干扰信号中采集能量以及利用干扰器自身的发射进行反向散射信息传输之间进行切换。然后,我们将该问题建模为马尔可夫决策过程(MDP),并采用深度Q网络(DQN)来推导最优操作策略。仿真结果表明,我们基于DQN的方法在收敛速度上显著优于传统的Q学习,并且在平均吞吐量、丢包率和数据包交付率方面超过了贪婪的抗干扰策略。
I. 引言
无线通信技术已变得不可或缺,支撑着渗透到现代生活各个方面的广泛应用。然而,无线信道的广播特性使其天生容易受到恶意干扰,尤其是干扰攻击。干扰器可以故意发射破坏性信号,以降低合法接收器处的信号与干扰加噪声比(SINR),从而中断或完全阻断有效通信链路[1], [2]。与无意干扰不同,干扰通常具有高功率和持续性的特点,对网络可靠性和可用性构成重大威胁。
最近,无人机的出现和广泛采用为无线网络带来了新的机遇和挑战。虽然无人机可以增强网络容量并提供快速部署解决方案[3],特别是在受灾或难以进入的区域,但其敏捷性和建立强视距(LoS)链路的能力也使它们成为移动干扰攻击的有效平台[4]。基于无人机的干扰器可以动态调整其位置和策略以最大化破坏效果,比地面静态干扰器构成更严重的威胁[5]。因此,应对智能无人机干扰这一不断演变的威胁对于确保无线通信的服务质量(QoS)和安全性至关重要。
传统的抗干扰技术,如功率控制、跳频扩频(FHSS)[6]和速率自适应,已被广泛研究。然而,这些方法通常假设干扰行为是静态或可预测的,并且可能难以应对能够学习并适应其策略的智能干扰器[7]。此外,对于像环境反向散射通信(AmBC)[8]这样的新兴低功耗通信范式,能量效率至关重要,而传统的主动抗干扰响应可能功耗过高。AmBC允许设备通过反射现有的环境射频信号(例如,电视、Wi-Fi,甚至干扰信号)进行通信,提供了一种超低功耗的通信替代方案。这通常与同时无线信息和功率传输(SWIPT)原理相结合,设备可以从用于通信的相同射频信号中采集能量[9]。
虽然一些先前的工作已经探索了在传统无线网络中使用强化学习(RL)进行抗干扰[10],但智能无人机干扰器策略性地改变其功率和存在,以及一个能够机会性地利用干扰信号本身进行能量采集和反向散射的系统,这一结合提出了独特的挑战和机遇。许多现有的基于DRL的抗干扰解决方案侧重于主动传输系统中的信道切换或功率自适应。例如,Gao等人[4]提出了一种用于抗无人机干扰的DQN方法,通过优化传输参数。Van Huynh等人[11]探索了用于AmBC系统的DRL以击败干扰器,但针对变化的无人机干扰信号强度进行自适应能量采集和反向散射决策的动态利用需要进一步研究。在面对智能无人机干扰器时,主动传输、为未来使用采集能量或立即利用当前干扰信号反向散射数据之间的策略性相互作用,构成了我们研究的核心。
本文提出了一种针对智能无人机干扰攻击下AmBC系统的新型抗干扰框架,利用了深度强化学习(DRL)[12]。我们的主要贡献是:
我们设计了一个系统模型,其中一个配备有AmBC和能量采集能力的发送方面对一个智能无人机干扰器。发送方可以选择:(i)在信道清晰时使用存储的能量主动传输数据包,(ii)从无人机的干扰信号中采集能量,或(iii)利用正在进行的干扰信号反向散射其数据。这种多方面的响应能力对于适应动态干扰环境至关重要。
我们将抗干扰决策过程建模为一个马尔可夫决策过程(MDP)。状态空间捕获干扰状态、发送方数据缓冲区占用率及其存储的能量水平。动作空间包括上述操作模式,以及用于主动传输的速率自适应。
我们开发了一种基于DRL的解决方案,使用深度Q网络(DQN)来学习最大化系统长期平均吞吐量的最优策略。DQN使发送方能够在没有明确知识的情况下隐式学习无人机干扰器的策略和环境动态。
我们进行了广泛的仿真来评估我们提出的基于DQN的方法的性能。我们展示了其与传统Q学习相比的优越收敛性,并在各种干扰场景下,与固定的贪婪抗干扰策略相比,证明了其在吞吐量、丢包和数据包交付率方面的显著性能提升。
本文的其余部分组织如下。第二部分详细介绍了系统模型并阐述了问题。第三部分介绍了提出的基于DRL的抗干扰解决方案。第四部分讨论了性能评估和仿真结果。最后,第五部分总结了本文。
II. 系统模型与问题阐述
为了有效应对智能无人机(UAV)干扰的复杂挑战,我们首先建立一个全面的系统模型,其概念图如图1所示。该模型为我们后续的问题阐述提供了分析基础。
II-A. 系统模型
我们考虑一个由三个主要实体组成的通信系统:一个单一发送方(Tx)、其目标接收方(Rx)和一个恶意无人机干扰器(J)。该系统的核心是,发送方被设计为一个资源受限但功能多样的设备,专门设计用于在恶劣的电磁环境中保持功能。这种多功能性对其生存和性能至关重要。发送方配备了一个有限大小的数据缓冲区,记为 Dmax,这对于管理数据包到达的随机性(假设为平均速率为 λ 的泊松过程)至关重要。此外,它拥有一个最大容量为 Emax 的能量存储单元,代表其有限的功率储备。关键的是,发送方的韧性源于两个先进的操作模块:一个能量采集(EH)模块,用于从环境射频(RF)信号中获取能量;以及一个环境反向散射通信(AmBC)电路[8]。AmBC 能力尤其值得注意,因为它允许发送方以超低功耗进行通信,其方式是通过调制和反射入射的RF信号(包括干扰器自身的破坏性信号)到接收方。这种丰富的多模态功能实现了一套多样化的战略响应。当面对动态的干扰威胁时,发送方可以从几个不同的选择中动态选择其操作模式:执行传统的主动传输(AT)消耗其存储的能量;进入EH模式,通过利用干扰器的信号补充其能量储备;利用AmBC进行高能效的数据传输;应用速率自适应(RA)以增强其主动传输的鲁棒性;或保持空闲以节省其有限资源。在这些模式之间智能切换的能力构成了我们提出的防御机制的核心前提。
图1: 系统模型,展示了多模态发送方、接收方和智能无人机干扰器之间的相互作用。
II-B. 信道模型
在定义了我们防御性发送方的能力之后,我们现在来刻画它旨在克服的对手:智能无人机干扰器。干扰器的主要目标是通过最小化接收器处的信号与干扰加噪声比(SINR)来破坏Tx-Rx通信链路。SINR是通信质量的基本度量,记为 θ,其表达式为:
其中 PR 代表从发送方收到的信号功率,PJ,eff 是影响接收器的有效干扰功率,σ² 表示加性高斯白噪声(AWGN)的功率。干扰器的智能体现在其动态调整其物理位置和传输功率 PJ 以最大化其破坏性影响的能力。其高机动性和建立强视距(LoS)链路的潜力使其成为特别强大的威胁,导致有效干扰功率显著波动并创建一个高度非平稳的信道环境。无人机和发送方之间的空对地(ATG)信道同时受到大尺度衰落和小尺度衰落的影响。Al-Hourani等人描述,基于无人机和发送方之间距离 d 的路径损耗(PL)可以建模为[13]:
其中 α 是路径损耗指数,βLoS, βNLoS 分别是LoS和NLoS链路的额外衰减因子。存在LoS连接的概率 PLoS 取决于环境和节点之间的仰角 θi(以度为单位),由下式给出[13]:
其中 Φ 和 Ψ 是依赖于环境的常数。为了捕捉这一点,我们将波动的功率建模为从集合 𝒫J = {P0J, P1J, …, PNJ} 中取离散水平,其中 P0J = 0 W 表示不存在有效干扰。我们模型的一个关键方面,反映了现实世界的条件,是发送方和干扰器之间的信息不对称。发送方在部分可观测性下运行;它可以可靠地检测到干扰是否存在(j=1 或 j=0),但它无法确定干扰信号的具体功率水平。这迫使发送方在显著的不确定性下做出决策,使得传统的确定性抗干扰策略无效,并需要一种鲁棒的、基于学习的方法。因此,发送方和干扰器之间的相互作用受通信信道感知状态的支配。当信道清晰时(j=0),发送方有机会主动传输最多 d^t 个数据包,前提是其缓冲区中有足够的数据且存储单元中有足够的能量。相反,在干扰状态期间(j=1),发送方面临一个深刻的战略困境。它必须智能地选择是尝试通过速率自适应进行鲁棒的主动传输,进入EH模式将敌对干扰信号转化为有用的能量,还是使用AmBC模式被动传输数据。EH和AmBC动作的有效性都直接取决于未知的干扰功率水平 PnJ ∈ 𝒫J,这进一步复杂化了决策过程。
II-C. MDP问题阐述
为了开发一种能够在这种复杂和不确定条件下导航的最优防御策略,我们正式将发送方的序贯决策问题构建为一个马尔可夫决策过程(MDP)。MDP提供了一个标准而强大的数学框架,用于通过交互进行目标导向的学习建模[12],并由一个包含状态空间、动作空间、奖励函数和总体目标的元组定义。这些组件的精确定义对于应用学习算法至关重要。在任何给定时隙 t 的系统状态,记为 st,必须封装做出最优决策所需的所有信息。因此,状态表示 st = (jt, dt, et) 被精心选择为既紧凑又足够信息丰富。这里,jt ∈ {0,1} 代表二元干扰状态,它决定了可用的动作;dt ∈ {0,1,…,Dmax} 表示数据缓冲区中当前的数据包数量,反映了通信的紧迫性;et ∈ {0,1,…,Emax} 指定了当前的能量水平,代表了发送方执行未来动作的能力。形式上,状态空间 𝒮 是:
为了响应观察到的状态 st,发送方必须从丰富的动作空间 𝒜 中选择一个动作 at,这反映了其多功能硬件能力:空闲(Idle)、主动传输(AT)、能量采集(EH)、环境反向散射(AmBC)以及 M 个不同级别的AT-RA(速率自适应)。每个动作代表一种战略权衡;例如,AT提供高吞吐量但耗能高,AmBC能效高但依赖于机会,而EH是对未来传输能力的投资。动作空间定义如下:
at ∈ 𝒜 = { 空闲(Idle)⏟1, 主动传输(AT)⏟2, 能量采集(EH)⏟3, 环境反向散射(AmBC)⏟4, AT-RA1, …,
动作的即时后果由奖励函数 r(st, at) 量化,定义为成功传递的数据包数量。例如,在状态 s=(j,d,e) 下采取动作 a 的奖励可以表示为:
其中 dt, dnJ, 和 dmr 是在各自情况下成功发送的数据包数。最终目标是找到一个最优策略 π∗: 𝒮 → 𝒜,以最大化累积的长期平均系统吞吐量,记为 R(π)。这个目标捕捉了对持续性能和韧性的需求,正式表达为:
鉴于状态空间是有限的,并且底层转移概率形成一个不可约的马尔可夫链,这个长期平均奖励是有明确定义的,并且独立于系统的起始状态,确保了一个一致且有意义的优化目标。
III. 提出的基于DRL的抗干扰解决方案
在将问题表述为MDP之后,本节详细介绍了我们提出的智能学习解决方案。为了正确评估其有效性,我们首先介绍一个传统的启发式方法作为性能基准。
III-A. 基准:一种启发式贪婪策略
作为我们基于学习方法的比较点,我们首先定义一种启发式的、基于规则的贪婪策略。该策略设计为直观且易于实现,反映了解决此类问题的常见方法,而无需机器学习的开销。该策略根据感知到的信道条件进行分叉处理。首先,在没有干扰的情况下(j=0),发送方采用一种直接的激进策略:只要其能量和缓冲区状态允许,它将始终尝试执行主动传输以发送尽可能多的数据包。其次,当检测到干扰时(j=1),发送方遵循一个固定的、交替循环的机会主义动作。它将在预定义的时间内执行能量采集以从敌对信号中收集能量,然后在循环的剩余时间切换到环境反向散射以传输数据。
虽然简单,但这种贪婪策略存在显著缺陷,限制了其在动态环境中的有效性。其策略是静态且基于规则的,使其无法适应智能干扰器不断变化的战术。例如,其性能对手动调整的超参数高度敏感,例如采集周期(Tharvest),这可能对一种干扰模式是最优的,但对另一种则非常次优。此外,其确定性使其可预测,因此容易被能够学习其响应模式的复杂对手利用。这些固有的局限性促使我们提出一种更智能、自适应的解决方案。
III-B. 智能解决方案:深度Q网络
为了克服贪婪基准方法固有的僵化和次优性,我们提出了一种基于深度强化学习(DRL)的智能解决方案,该范式在解决不确定性下的复杂决策问题方面已展现出显著成功[10]。DRL非常适合此问题,因为它允许智能体(在本例中为发送方)通过直接与其环境进行试错交互来学习有效的策略,从而无需明确的环境模型。具体来说,我们采用深度Q网络(DQN)算法,这是一种开创性的基于价值的DRL方法,以其解决高维状态空间问题的能力而闻名,而像Q学习这样的传统表格方法会因维度灾难而失效[14]。DQN算法不是维护一个详尽且耗内存的状态-动作值查找表,而是利用一个由权重集 θ 参数化的深度神经网络,作为一个强大的非线性函数逼近器来估计动作-价值函数 Q(s, a; θ)。
为了确保涉及训练深度神经网络(可能使用相关数据)的学习过程既稳定又高效,DQN框架集成了两个架构基石:经验回放和目标网络。第一种技术,经验回放,通过存储智能体的经验(表示为转移 (st, at, rt, st+1))到一个大的但有限的经验回放缓冲区 𝒟 中来解决样本相关性问题。在训练阶段,算法不是按顺序从发生的经验中学习;相反,它从该缓冲区中随机采样小批量的转移。这种实践有效地打破了数据流中的时间相关性,这对于用于训练神经网络的基于梯度的优化的稳定性至关重要[15]。下一种技术,与经验回放相辅相成,是使用一个单独的目标网络来解决“移动目标”问题。一个目标网络 Q^(s, a; θ′),它是主Q网络 Q(s, a; θ) 的周期性克隆,用于生成学习更新的目标值。其权重 θ′ 在固定次数的迭代中保持冻结,然后才用主网络的权重更新。这为贝尔曼更新提供了一个一致且稳定的目标 yi,防止了当网络试图追逐自身快速变化的预测时可能发生的振荡或发散行为。这种技术,结合像双Q学习这样减少过高估计偏差的创新[16],增强了学习稳定性。进一步的改进,如竞争网络架构[17],也可以被整合进来以分离状态价值和动作优势的估计。对于来自小批量的给定转移 i,其目标值计算如下:
其中 γ 是折扣因子,用于平衡即时奖励与未来奖励的重要性。然后通过最小化其预测的Q值与这些稳定目标值之间的均方误差(MSE)损失来训练主网络,使用像Adam[18]这样的高效优化器:
学习过程的最后一个关键要素是管理探索-利用的权衡[12]。这个困境是强化学习的基础:智能体必须利用它已学会有效的动作,但同时也必须探索新的、看似次优的动作,以发现可能更好的长期策略。为了解决这个问题,我们采用了一种 ϵ-贪婪策略。以一个小概率 ϵ,智能体选择一个随机动作,从而探索动作空间。否则,以概率 1-ϵ,它选择当前估计Q值最高的动作,从而利用其知识。ϵ 的值通常在训练过程中逐渐衰减(退火),开始时较高以鼓励广泛探索,随着智能体对其学习到的策略越来越有信心而逐渐减小以偏向利用。这些组件——神经网络逼近器、经验回放、目标网络和 ϵ-贪婪探索策略——的协同作用,被封装在算法1中概述的基于DQN的综合抗干扰过程中。
算法1 基于DQN的抗干扰算法
1: 初始化经验回放内存 𝒟,Q网络 Q 及其权重 θ,目标网络 Q^ 及其权重 θ′ ← θ。
2: for episode = 1 到 Tepisodes do
3: 初始化状态 s1。
4: for t = 1 到 Tsteps do
5: 根据 Q(st, a; θ) 使用 ϵ-贪婪策略选择动作 at。
6: 执行 at,观察奖励 rt 和下一个状态 st+1。
7: 将转移 (st, at, rt, st+1) 存储到 𝒟 中。
8: if 经验回放内存足够满 then
9: 从 𝒟 中随机采样一个小批量。
10: 计算小批量的目标值 yj。
11: 对损失 L(θ) 执行梯度下降步骤。
12: end if
13: 定期更新目标网络:θ′ ← θ。
14: end for
15: end for
IV. 性能评估
在本节中,我们评估我们提出的基于DQN的抗干扰方案的性能。我们首先描述仿真设置和参数,然后比较DQN与传统Q学习的收敛性,最后将DQN与贪婪抗干扰策略进行基准测试。
IV-A. 仿真设置
系统参数设置如下:
表I:仿真系统参数
参数 | 数值 |
|---|---|
系统参数 | |
最大缓冲区大小 (Dmax) | 10 个数据包 |
最大能量存储容量 (Emax) | 10 个单位 |
数据包到达率 (λ) | 3 个数据包/时隙 (泊松分布) |
无干扰时主动传输数据包数 (d̂t) | 4 个数据包 |
主动传输能量成本 (et) | 1 单位/数据包 |
干扰功率水平 (𝒫J) | {0, 5, 10, 15} W |
默认平均干扰功率 (Pavg) | 7 W |
采集的能量 (eJ) | {0, 1, 2, 3} 个单位 |
可反向散射数据包数 (d̂AmBC) | {0, 1, 2, 3} 个数据包 |
表II:仿真DQN参数
DQN参数 | 数值 |
|---|---|
学习率 (α) | 0.0001 |
折扣因子 (γ) | 0.9 |
经验回放内存大小 | 10000 |
批大小 | 32 |
目标网络更新频率 (C) | 5000 步 |
ϵ-贪婪调度 | 起始 1.0,终止 0.01,衰减率 0.9999 |
IV-B. 收敛性比较:DQN vs. Q-learning
图2比较了DQN智能体与标准表格Q学习智能体的收敛性。每回合的平均奖励相对于训练迭代次数绘制。DQN智能体比Q学习更快地获得更高且更稳定的奖励。这归因于DQN使用其神经网络在大的状态空间上进行泛化的能力,而Q学习必须足够频繁地访问每个状态-动作对,这是低效的。
图2: DQN和Q学习的收敛性比较。
IV-C. 与贪婪策略的性能比较
IV-C1. 平均干扰功率 (Pavg) 的影响
图3、4和5显示了系统性能随无人机平均干扰功率变化的情况。随着 Pavg 的增加,与贪婪基准相比,DQN智能体实现了显著更高的吞吐量和PDR,以及更低的丢包率。这凸显了DQN的核心优势:它学会了利用干扰信号。随着干扰增强,来自EH(用于未来AT)和AmBC的潜在奖励都会增加。DQN智能体学会了在这些选择之间进行最优权衡,有效地将更强的威胁转化为更有价值的资源。贪婪策略锁定在固定的EH/AmBC循环中,无法适应,因此无法像DQN那样有效地利用。
图3: 平均吞吐量(DQN vs. 贪婪)vs. Pavg
图4: 平均丢包率(DQN vs. 贪婪)vs. Pavg
图5: PDR(DQN vs. 贪婪)vs. Pavg
IV-C2. 主动传输能力 (d^t) 的影响
图6、7和8说明了在固定 Pavg = 7W 时,不同 d^t(清晰信道中AT的最大数据包数)下的性能。虽然更高的 d^t 通过在非干扰期间改善性能而使两种策略受益,但DQN智能体始终保持着显著的性能差距。这表明DQN学习到的策略是鲁棒且有效的,与基线主动传输能力无关,因为其优势在于优化复杂干扰期间的行为。
图6: 平均吞吐量(DQN vs. 贪婪)vs. d^t
图7: 平均丢包率(DQN vs. 贪婪)vs. d^t
图8: PDR(DQN vs. 贪婪)vs. d^t
IV-C3. 贪婪策略的采集周期 (Tharvest) 的影响
图9、10和11显示了在 Pavg = 7W 时,改变贪婪策略的固定采集周期 Tharvest 的影响。贪婪策略的性能对此超参数高度敏感,在达到特定值时光性能最优,然后下降。然而,DQN智能体即使在贪婪策略的最优设置下也优于它。这一结果有力地说明了基于学习的自适应策略相对于固定的、基于规则的启发式方法的优势,后者需要手动调整且无法适应变化的环境统计特性。
图9: 平均吞吐量(DQN vs. 贪婪)vs. Tharvest
图10: 平均丢包率(DQN vs. 贪婪)vs. Tharvest
图11: PDR(DQN vs. 贪婪)vs. Tharvest
V. 结论
本文通过提出一种基于深度Q网络的新型抗干扰策略,解决了环境反向散射通信系统中智能无人机干扰的关键挑战。通过将问题建模为MDP,我们使发送方能够学习一种复杂的策略,自适应地在主动传输、能量采集和环境反向散射之间切换。广泛的仿真结果证实,所提出的DQN方法在关键性能指标上显著优于静态贪婪基准。这项工作的主要发现是学习智能体能够将敌对的干扰信号转化为机会性资源,从而增强系统韧性和吞吐量的能力。未来的工作可以扩展此框架以探索多智能体DRL场景和更复杂的干扰策略,可能结合物理层安全指标。