Belle II实验DNN触发系统设计与FPGA实现-平芜编程栈

1. 项目背景与挑战

Belle II实验是当前高能物理领域最重要的前沿实验之一，位于日本筑波市的高能加速器研究机构(KEK)。作为B工厂实验的升级版，它使用SuperKEKB对撞机将7 GeV电子与4 GeV正电子对撞，目标累积50 ab⁻¹的积分亮度，峰值亮度达到6×10³⁵ cm⁻²s⁻¹。实验的核心物理目标是研究味物理中的新物理现象，并提高标准模型参数的测量精度。

实验探测器由七个子探测器组成，从内到外依次是：像素顶点探测器(PXD)、硅顶点探测器(SVD)、中心漂移室(CDC)、时间传播探测器(TOP)、气凝胶切伦科夫探测器(ARICH)、电磁量能器(ECL)以及KL和μ子探测器(KLM)。这些探测器被安置在超导螺线管产生的1.5 T磁场中。

1.1 触发系统的关键作用

在高亮度对撞环境下，Belle II面临的主要挑战是：

感兴趣的物理事件(如B介子对产生)率约15 kHz
束流背景(beam-gas相互作用和Touschek散射)可达MHz量级

第一级(L1)硬件触发系统必须在5μs内完成决策，将数据率降至DAQ系统可处理的30 kHz以下。这相当于每秒需要处理约1.6×10⁷次触发判断，对实时性要求极高。

CDC触发作为L1系统的核心组成部分，负责：

重建带电粒子径迹
估算径迹参数(ϕ₀, ω, z₀, θ₀)
区分真实物理事件与背景

传统MLP(多层感知机)方案在2022年运行中暴露出问题：当瞬时亮度达到3.49×10³⁴ cm⁻²s⁻¹时，背景误触发率高达几kHz，主要原因是z₀(径迹起点z坐标)分辨率不足导致背景径迹被误判为来自对撞点。

2. DNN触发系统设计

2.1 架构创新点

我们设计的DNN触发系统包含三大关键技术突破：

简化注意力机制：
- 原始注意力机制(QKV矩阵)简化为单矩阵运算：xA = Softmax(xW_w)·(xW_v + b_v)
- 在Virtex UltraScale XCVU160 FPGA上实现，仅消耗53%的LUT资源
- 相比基线模型，MAC操作从3120次增加到4995次，通过DSP复用(每个DSP重复使用4次)实现
特征工程增强：
- 输入特征从基线模型的5个扩展到71个
- 新增每个TS中所有wire的漂移时间信息(32 ns分辨率)
- 引入径迹段模式标志(-1表示无效hit)
多专家集成：
- 训练5个独立DNN处理不同SL缺失情况
- 采用Optuna框架进行超参数优化
- 最终模型结构：两层FFN(各27节点)+注意力层

2.2 硬件实现方案

2.2.1 FPGA选型与资源配置

选用AMD Virtex UltraScale XCVU160 FPGA，关键资源分配：

DSP切片：1560个(利用率69%)
分布式RAM：9%
逻辑单元：12%
最大工作频率：127.216 MHz

通过HLS(高层次综合)实现以下优化：

流水线设计：
- 总延迟控制在593 ns(76个时钟周期)
- 预处理阶段：27周期(TS对齐)
- DNN计算：49周期

混合精度量化：

# 量化公式示例 def quantize(weight, scale, zero_point): return np.floor(weight / scale + zero_point).astype(np.int8) # 实际采用的位宽配置 inner_nodes = fixed<16,6> # 16位(6位整数+10位小数) outputs = fixed<13,1> # 13位(1位整数+12位小数)

资源复用策略：
- 35%的MAC操作由LUT实现
- 非线性函数(LeakyReLU、tanh)采用预计算LUT
- 通过hls4ml库生成优化后的IP核

2.2.2 时序与吞吐量平衡

关键时序约束：

系统时钟：127.216 MHz(周期7.8 ns)
数据输入率：31.804 MHz(每4个周期处理一次)
严格实时限制：850 ns总延迟

通过以下措施满足要求：

25 Gbps光链路降低I/O延迟至226 ns
四级流水线处理：
- Stage 1: TS对齐与缓存(27周期)
- Stage 2: 径迹查找(11周期)
- Stage 3: 特征计算(13周期)
- Stage 4: DNN推理(25周期)

3. 性能优化与测试结果

3.1 训练策略

数据集构成：

300万条带电粒子径迹(2022年数据)
S/N≈2:1(信号:|z₀|<1cm；背景:|z₀|≥1cm)
额外100万条径迹用于2024年微调

训练参数：

损失函数：MSE(均方误差)
优化器：Adam(lr=3e-4)
Batch size：1024
早停机制：验证集AUC连续5轮不提升

3.2 关键性能指标

基于2024年12月实测数据(亮度2.75×10³⁴ cm⁻²s⁻¹)：

指标	基线模型	DNN触发	提升幅度
信号效率(ϵ_sig)	96%	98%	+2%
背景抑制率(1-ϵ_bkg)	60%	83%	+23%
径迹触发率	4.32 kHz	2.68 kHz	-38%
z₀分辨率(r(z₀))	3.65 cm	3.29 cm	+10%
分类准确率(Q)	-	93%	-

特别在p_T>0.9 GeV区间：

信号效率稳定在99%以上
背景径迹减少50%(p_T≤1.2 GeV区间)

3.3 实际运行考量

温度稳定性：
- 实测FPGA结温升高12°C(从45°C至57°C)
- 通过增加散热片确保工作温度<70°C
固件更新机制：
- 采用部分重配置(PR)技术
- 更新DNN权重仅需50ms停机时间
故障恢复：
- 双配置存储器(黄金镜像备份)
- 看门狗定时器超时自动回滚

4. 技术延伸与应用前景

4.1 对高能物理实验的启示

实时DNN处理范式：
- 首次在硬件触发中实现注意力机制
- 验证了25 Gbps光链路的可行性
- 为未来HL-LHC等实验提供参考

可扩展性设计：

graph LR A[TSF] --> B[2D径迹查找] B --> C[ETF] C --> D[DNN触发] D --> E[GRL]

模块化设计允许单独升级各组件

4.2 跨领域应用潜力

医学成像：
- PET/MRI实时事件筛选
- 可借鉴的时序处理架构
工业检测：
- 高速生产线缺陷识别
- 微秒级决策延迟要求
天文观测：
- 射电望远镜RFI抑制
- 类似的高通量数据挑战

5. 实践经验与教训

5.1 关键成功因素

协同设计方法：
- 算法团队与FPGA工程师早期协作
- 从第一天就考虑硬件约束
数据驱动优化：
- 基于真实束流数据训练
- 持续监控和模型微调

5.2 遇到的挑战

时序收敛问题：
- 解决方案：手动布局约束+关键路径优化
- 教训：HLS不能完全替代RTL设计
量化精度损失：
- 发现：INT8导致AUC下降2%
- 调整：混合精度(部分16位)恢复性能
资源竞争：
- GRL与DNN触发共享DDR4带宽
- 最终方案：增加仲裁优先级

6. 未来升级方向

下一代架构：
- 评估Versal ACAP平台
- 利用AI引擎提升吞吐量
算法改进：
- 图神经网络(GNN)处理径迹关联
- 稀疏化减少90%MAC操作
系统集成：
- 与ECL触发联合优化
- 开发统一的特征提取管道

这套DNN触发系统计划在2025年运行中全面部署，预计可支持Belle II达到设计亮度时的数据获取需求。我们在Virtex UltraScale上实现的注意力机制，为其他需要实时处理的物理实验提供了宝贵的技术参考。

Belle II实验DNN触发系统设计与FPGA实现