深度学习+波束成形双赋能:DoA估计突破复杂场景瓶颈的核心原理
文章来源 微信公众号 EW Frontier
DoA估计作为阵列信号处理的基石任务,早已渗透到声学源定位、雷达探测、无线通信等多个关键领域——其核心目标是通过传感器阵列接收的信号,精准反推信号源的方位信息。然而,传统方法在实际场景中常陷入“理想很丰满,现实很骨感”的困境,而一种融合传统波束成形原理与深度学习优势的新框架,正为解决这一难题提供了全新思路。
一、传统DoA估计的“软肋”:复杂场景下的性能滑坡
传统DoA估计以模型驱动的波束成形方法为核心,比如常规波束成形(CBF)、最小方差无失真响应(MVDR)、MUSIC算法等。这些方法基于明确的信号模型假设,在理想条件下(非相干源、充足快拍数、阵列校准完美)能稳定工作,但一旦遭遇实际场景的“复杂工况”,就容易出现性能断崖式下降:
相干源干扰:多径传播等导致多个信号源存在相关性时,传统方法会因信号协方差矩阵秩亏而失效;
少快拍限制:瞬时信号、快速移动源等场景下难以获取充足信号快照,导致滤波器估计精度大幅降低;
非理想环境:传感器位置误差、互耦效应、强背景噪声等,会破坏信号模型的理想假设,让定位结果偏差显著。
深度学习的崛起为解决这些问题带来了曙光——数据驱动的特性让模型能自适应非理想条件,但“黑箱性”和有限的可解释性,又让很多工程场景难以接受。如何在“原理可解释性”和“复杂场景鲁棒性”之间找到平衡,成为DoA估计领域的关键突破口。
二、核心创新:逼近“最优空间滤波器”的深度学习框架
新框架的核心思路,是将传统波束成形的“可解释性”与深度学习的“强拟合能力”深度融合——本质是通过神经网络逼近一个“最优空间滤波器”,实现信号聚焦与噪声抑制的双重目标,既保留原理逻辑,又突破模型假设束缚。
1. 最优空间滤波器:DoA估计的“理想目标”
波束成形的本质是构造空间滤波器B,对接收信号X滤波后得到空间能量谱P,再通过谱峰检测确定DoA。而该框架定义了一个“最优空间滤波器B*”,需满足两个核心条件:
信号聚焦:B*×A×S = S(A为阵列流形矩阵,包含所有可能方位的导向向量;S为信号源矩阵)——让滤波器只保留目标信号,过滤无关干扰;
噪声抑制:B*×N = 0(N为噪声矩阵)——完全抵消背景噪声的影响。
从理论上看,在稀疏信号模型(信号源在空间中稀疏分布,大部分方位无信号)和“信号源数K < 传感器数M”的假设下,这种最优滤波器必然存在:滤波器的自由度由传感器数M决定,而信号和噪声带来的约束分别为K和1,剩余自由度足够满足上述两个条件。
传统方法试图通过解析公式求解B,但受限于模型假设难以适配复杂场景;而新框架的核心,正是用深度学习“逼近”这个最优滤波器B*,兼顾了可解释性与鲁棒性。
2. 神经网络如何“学会”最优滤波?
基于万能逼近定理(神经网络可在温和条件下,以任意精度逼近任意映射),该框架设计了针对性的网络架构,实现从“输入信号+空间信息”到“最优滤波器”的精准映射:
(1)输入与特征提取:保留关键相位信息
网络输入包含两个核心信息:阵列流形矩阵A(体现空间信息)和接收信号矩阵X(体现时间序列信息)。由于复信号的相位对DoA估计至关重要,模型先将A和X拆分为实部和虚部,拼接后输入双向RNN,分别提取空间域和时间域的上下文特征;同时通过维度扩展(虚拟元素),增强特征表达能力,为后续滤波奠定基础。
(2)注意力融合:聚焦有信号的空间区域
传统波束成形需要融合空间导向向量和接收信号信息,该框架引入注意力模块实现自适应聚焦:以接收信号特征为“查询”,以空间导向向量特征为“键”和“值”,通过相似度计算为不同方位分配权重,让模型自动聚焦“有信号的空间网格”,避免无关区域的干扰,提升滤波器的精准性。
(3)滤波器生成与空间谱计算
经过特征融合后,网络通过RNN和线性层生成最终的空间滤波器B(组合实部和虚部为复矩阵)。将B作用于接收信号X得到初步空间谱P’,再通过“模平方+时间维度平均”得到最终空间能量谱P——谱峰对应的方位,即为估计的DoA。
3. 损失函数设计:解决“谱峰无法反向传播”痛点
传统方法通过谱峰搜索得到DoA,但这种“搜索过程”无法直接用于神经网络反向传播训练。该框架的解决方案极具巧思:
概率化转换:用tanh激活函数将空间谱P的能量值([0, +∞))映射到[0,1]区间,转化为“方位存在信号的概率分布”;
多标签分类建模:将DoA估计转化为“哪些空间网格存在信号”的多标签分类问题。利用信号的空间稀疏性(大部分网格无信号),采用非对称损失(ASL)解决正负样本不平衡问题,让模型更关注少数存在信号的网格,提升定位精度。
三、为何能突破复杂场景?原理带来的核心优势
该框架的性能提升,源于“最优滤波器逼近”与“深度学习自适应”的双重作用,具体体现在:
相干源适配:无需额外解相干处理,神经网络学习到的滤波器能自动分离相干信号,解决传统方法的核心痛点;
少快拍鲁棒:RNN能从有限快照中提取时间域关联特征,随着快照数增加,性能快速超越传统方法;
宽SNR适配:中高SNR下信号聚焦能力突出,定位精度最优;低SNR下,噪声抑制机制可显著提升信号质量(实验中曾将-15dB的SNR提升至13.3dB);
阵列扩展性强:传感器数M增加时,模型参数增长平缓,远低于传统数据驱动方法,适合大规模阵列部署;
真实场景落地:在包含多径传播、宽带信号、复杂环境噪声的真实语音数据集中,仍能保持最优定位精度,证明了原理的工程实用性。
四、未来方向:突破更极端场景
目前该框架已在模拟数据和真实场景中验证了有效性,但仍有进一步优化空间:针对“单快拍”(仅1个信号快照)、“极低SNR”(如-20dB以下)等极端条件,需强化时间域特征提取和噪声抑制模块;同时,降低模型复杂度以适配边缘设备(如小型麦克风阵列),将成为后续研究的重点。
结语
这种“原理驱动+数据赋能”的思路,为DoA估计提供了全新范式——没有将深度学习视为“黑箱替代”,而是以传统波束成形的核心原理为锚点,用神经网络解决“最优滤波器难以解析求解”的痛点。这种兼顾可解释性与鲁棒性的设计,不仅让DoA估计突破了复杂场景的瓶颈,也为更多阵列信号处理任务提供了参考,推动相关技术在更广泛的实际场景中落地应用。