1. 项目背景与挑战
Belle II实验是当前高能物理领域最重要的前沿实验之一,位于日本筑波市的高能加速器研究机构(KEK)。作为B工厂实验的升级版,它使用SuperKEKB对撞机将7 GeV电子与4 GeV正电子对撞,目标累积50 ab⁻¹的积分亮度,峰值亮度达到6×10³⁵ cm⁻²s⁻¹。实验的核心物理目标是研究味物理中的新物理现象,并提高标准模型参数的测量精度。
实验探测器由七个子探测器组成,从内到外依次是:像素顶点探测器(PXD)、硅顶点探测器(SVD)、中心漂移室(CDC)、时间传播探测器(TOP)、气凝胶切伦科夫探测器(ARICH)、电磁量能器(ECL)以及KL和μ子探测器(KLM)。这些探测器被安置在超导螺线管产生的1.5 T磁场中。
1.1 触发系统的关键作用
在高亮度对撞环境下,Belle II面临的主要挑战是:
- 感兴趣的物理事件(如B介子对产生)率约15 kHz
- 束流背景(beam-gas相互作用和Touschek散射)可达MHz量级
第一级(L1)硬件触发系统必须在5μs内完成决策,将数据率降至DAQ系统可处理的30 kHz以下。这相当于每秒需要处理约1.6×10⁷次触发判断,对实时性要求极高。
CDC触发作为L1系统的核心组成部分,负责:
- 重建带电粒子径迹
- 估算径迹参数(ϕ₀, ω, z₀, θ₀)
- 区分真实物理事件与背景
传统MLP(多层感知机)方案在2022年运行中暴露出问题:当瞬时亮度达到3.49×10³⁴ cm⁻²s⁻¹时,背景误触发率高达几kHz,主要原因是z₀(径迹起点z坐标)分辨率不足导致背景径迹被误判为来自对撞点。
2. DNN触发系统设计
2.1 架构创新点
我们设计的DNN触发系统包含三大关键技术突破:
简化注意力机制:
- 原始注意力机制(QKV矩阵)简化为单矩阵运算:xA = Softmax(xW_w)·(xW_v + b_v)
- 在Virtex UltraScale XCVU160 FPGA上实现,仅消耗53%的LUT资源
- 相比基线模型,MAC操作从3120次增加到4995次,通过DSP复用(每个DSP重复使用4次)实现
特征工程增强:
- 输入特征从基线模型的5个扩展到71个
- 新增每个TS中所有wire的漂移时间信息(32 ns分辨率)
- 引入径迹段模式标志(-1表示无效hit)
多专家集成:
- 训练5个独立DNN处理不同SL缺失情况
- 采用Optuna框架进行超参数优化
- 最终模型结构:两层FFN(各27节点)+注意力层
2.2 硬件实现方案
2.2.1 FPGA选型与资源配置
选用AMD Virtex UltraScale XCVU160 FPGA,关键资源分配:
- DSP切片:1560个(利用率69%)
- 分布式RAM:9%
- 逻辑单元:12%
- 最大工作频率:127.216 MHz
通过HLS(高层次综合)实现以下优化:
流水线设计:
- 总延迟控制在593 ns(76个时钟周期)
- 预处理阶段:27周期(TS对齐)
- DNN计算:49周期
混合精度量化:
# 量化公式示例 def quantize(weight, scale, zero_point): return np.floor(weight / scale + zero_point).astype(np.int8) # 实际采用的位宽配置 inner_nodes = fixed<16,6> # 16位(6位整数+10位小数) outputs = fixed<13,1> # 13位(1位整数+12位小数)资源复用策略:
- 35%的MAC操作由LUT实现
- 非线性函数(LeakyReLU、tanh)采用预计算LUT
- 通过hls4ml库生成优化后的IP核
2.2.2 时序与吞吐量平衡
关键时序约束:
- 系统时钟:127.216 MHz(周期7.8 ns)
- 数据输入率:31.804 MHz(每4个周期处理一次)
- 严格实时限制:850 ns总延迟
通过以下措施满足要求:
- 25 Gbps光链路降低I/O延迟至226 ns
- 四级流水线处理:
- Stage 1: TS对齐与缓存(27周期)
- Stage 2: 径迹查找(11周期)
- Stage 3: 特征计算(13周期)
- Stage 4: DNN推理(25周期)
3. 性能优化与测试结果
3.1 训练策略
数据集构成:
- 300万条带电粒子径迹(2022年数据)
- S/N≈2:1(信号:|z₀|<1cm;背景:|z₀|≥1cm)
- 额外100万条径迹用于2024年微调
训练参数:
- 损失函数:MSE(均方误差)
- 优化器:Adam(lr=3e-4)
- Batch size:1024
- 早停机制:验证集AUC连续5轮不提升
3.2 关键性能指标
基于2024年12月实测数据(亮度2.75×10³⁴ cm⁻²s⁻¹):
| 指标 | 基线模型 | DNN触发 | 提升幅度 |
|---|---|---|---|
| 信号效率(ϵ_sig) | 96% | 98% | +2% |
| 背景抑制率(1-ϵ_bkg) | 60% | 83% | +23% |
| 径迹触发率 | 4.32 kHz | 2.68 kHz | -38% |
| z₀分辨率(r(z₀)) | 3.65 cm | 3.29 cm | +10% |
| 分类准确率(Q) | - | 93% | - |
特别在p_T>0.9 GeV区间:
- 信号效率稳定在99%以上
- 背景径迹减少50%(p_T≤1.2 GeV区间)
3.3 实际运行考量
温度稳定性:
- 实测FPGA结温升高12°C(从45°C至57°C)
- 通过增加散热片确保工作温度<70°C
固件更新机制:
- 采用部分重配置(PR)技术
- 更新DNN权重仅需50ms停机时间
故障恢复:
- 双配置存储器(黄金镜像备份)
- 看门狗定时器超时自动回滚
4. 技术延伸与应用前景
4.1 对高能物理实验的启示
实时DNN处理范式:
- 首次在硬件触发中实现注意力机制
- 验证了25 Gbps光链路的可行性
- 为未来HL-LHC等实验提供参考
可扩展性设计:
graph LR A[TSF] --> B[2D径迹查找] B --> C[ETF] C --> D[DNN触发] D --> E[GRL]模块化设计允许单独升级各组件
4.2 跨领域应用潜力
医学成像:
- PET/MRI实时事件筛选
- 可借鉴的时序处理架构
工业检测:
- 高速生产线缺陷识别
- 微秒级决策延迟要求
天文观测:
- 射电望远镜RFI抑制
- 类似的高通量数据挑战
5. 实践经验与教训
5.1 关键成功因素
协同设计方法:
- 算法团队与FPGA工程师早期协作
- 从第一天就考虑硬件约束
数据驱动优化:
- 基于真实束流数据训练
- 持续监控和模型微调
5.2 遇到的挑战
时序收敛问题:
- 解决方案:手动布局约束+关键路径优化
- 教训:HLS不能完全替代RTL设计
量化精度损失:
- 发现:INT8导致AUC下降2%
- 调整:混合精度(部分16位)恢复性能
资源竞争:
- GRL与DNN触发共享DDR4带宽
- 最终方案:增加仲裁优先级
6. 未来升级方向
下一代架构:
- 评估Versal ACAP平台
- 利用AI引擎提升吞吐量
算法改进:
- 图神经网络(GNN)处理径迹关联
- 稀疏化减少90%MAC操作
系统集成:
- 与ECL触发联合优化
- 开发统一的特征提取管道
这套DNN触发系统计划在2025年运行中全面部署,预计可支持Belle II达到设计亮度时的数据获取需求。我们在Virtex UltraScale上实现的注意力机制,为其他需要实时处理的物理实验提供了宝贵的技术参考。