脉动阵列加速器与SCALE-Sim v3的稀疏计算优化-平芜编程栈

1. 脉动阵列加速器概述

脉动阵列（Systolic Array）是一种专为高效执行矩阵乘法等线性代数运算设计的硬件架构，其核心思想是通过规则的数据流动和局部计算实现高并行度。这种架构最早由H.T. Kung在1982年提出，现已成为现代AI加速器的关键组件。在典型的脉动阵列中，处理单元(PE)按二维网格排列，数据以"脉动"方式在PE间流动，每个时钟周期完成部分计算并传递给相邻PE。

传统模拟器如SCALE-Sim v2虽然能对基础脉动阵列进行周期精确模拟，但随着AI模型复杂度的提升，面临三个主要挑战：

现代模型普遍存在50-90%的稀疏性，传统密集计算浪费大量资源
多核并行成为提升算力的主要手段，需要更精细的时空分区建模
内存访问已成为性能瓶颈，需考虑DRAM层次的实际延迟

2. SCALE-Sim v3架构设计

2.1 整体架构改进

SCALE-Sim v3在v2基础上进行了五项关键改进：

多核支持：引入时空分区和层次化内存结构
稀疏计算：支持层间和行间稀疏矩阵乘法(SpMM)
内存建模：集成Ramulator实现DRAM行为分析
数据布局：精确建模片上存储的数据排布
能耗估算：通过Accelergy实现功耗分析

新架构采用模块化设计，各组件通过标准接口连接。如图1所示，模拟器核心包含多个张量核(TC)，每个TC包含脉动阵列和SIMD单元，通过共享L2缓存互连。这种设计可灵活配置为同构或异构多核系统。

2.2 周期精确模拟原理

周期精确模拟的关键在于跟踪每个时钟周期内的：

数据流动：输入矩阵、权重矩阵在PE间的传递路径
计算状态：每个PE的乘累加(MAC)操作进度
资源竞争：内存带宽、总线仲裁等共享资源的使用情况

模拟器维护三个关键状态机：

计算状态机：跟踪PE阵列的计算进度
内存状态机：模拟SRAM和DRAM的访问延迟
同步状态机：协调多核间的数据依赖

提示：周期精确模拟虽然精度高，但速度较慢。建议在实际使用中先采用分析模型快速探索设计空间，再对候选配置进行周期精确验证。

3. 稀疏计算实现细节

3.1 稀疏性建模方法

SCALE-Sim v3支持两种稀疏模式：

层间稀疏：不同层采用不同稀疏比(N:M)
行间稀疏：同一层内不同行采用不同稀疏比

稀疏比定义为非零元素数(N)与块大小(M)的比值。为保持计算优势，约束N ≤ M/2。例如在2:4稀疏中，每4个元素至少2个为零。

3.2 稀疏存储格式

模拟器支持三种压缩格式：

CSR(压缩稀疏行)：存储非零值和列索引
CSC(压缩稀疏列)：列优先版本的CSR
Blocked ELLPACK：块化的ELL格式，适合硬件实现

以图6的8×8矩阵为例，采用块大小=4的Blocked ELLPACK格式时：

绿色部分存储实际非零值
紫色部分存储元数据(每个块需要log2(4)=2位)

3.3 稀疏计算性能分析

图5展示了ResNet-18在不同稀疏比下的性能：

1:4稀疏相比密集(4:4)减少约40%计算周期
随着片上内存增大，所有配置的停滞周期都减少
稀疏模型的优势在内存受限时更明显

图7的存储分析显示：

1:4稀疏所需存储仅为密集的35%
包括稀疏数据和元数据的总开销仍显著低于密集存储

4. 多核并行优化

4.1 时空分区算法

传统空间分区(公式1)仅沿Sr和Sc维度切分：

周期数 = (2R + C + T - 2) * ceil(Sr/(Pr*R)) * ceil(Sc/(Pc*C))

v3新增时空分区(公式2-3)，允许沿时间维度T切分：

时空分区1：沿Sc和T切分(公式2) 时空分区2：沿Sr和T切分(公式3)

图3显示两种分区的trade-off：

时空分区在计算周期优化场景表现更好
空间分区在内存占用优化场景占优

4.2 层次化内存设计

多核系统采用两级存储结构：

私有L1：每个张量核独享，存储当前计算块
共享L2：多核共享，减少输入/权重数据的重复存储

如图4所示，同行核共享输入分区，同列核共享权重分区。L2大小需满足：

L2_size ≥ max(input_partition, weight_partition)

4.3 非均匀负载均衡

考虑芯片间延迟差异，采用非均匀分区：

远离内存的核分配较小负载(Pr', Pc')
靠近内存的核分配较大负载(Pr, Pc)

分区比例根据NoP(Network on Package)延迟确定：

Pr'/Pr = Pc'/Pc = latency_remote / latency_local

5. 内存系统建模

5.1 DRAM集成方案

通过Ramulator实现精确DRAM建模：

支持DDR4、HBM等多种内存标准
模拟行缓冲命中/冲突的实际延迟
统计带宽利用率和功耗

关键配置参数包括：

通道数(1-8个)
请求队列大小(32-512项)
内存技术(DDR4/HBM等)

5.2 内存访问优化

图9显示通道数对ResNet18的影响：

前几层受益于多通道(最高2000MB/s)
后几层在2通道后即饱和

图10展示队列大小的影响：

32项队列导致大量停滞周期
512项队列可减少38%的总周期数

5.3 数据布局优化

采用BANK交错存储避免冲突：

连续地址映射到不同BANK
关键数据(如权重)复制到多个BANK
动态调整访问模式匹配硬件特性

6. 能耗建模与工具集成

6.1 Accelergy集成

能量估算流程：

定义加速器组件(PE、SRAM等)
指定工艺参数(28nm/7nm等)
根据操作计数估算动态能耗
考虑泄漏功耗和时钟门控

6.2 能效分析案例

ViT-base模型的测试显示：

128×128阵列比32×32快6.53倍
但32×32能效高2.86倍
64×64在EDP(Energy-Delay Product)指标最优

7. 典型应用场景

7.1 Transformer加速

针对ViT模型的优化：

采用4:8稀疏比压缩注意力矩阵
使用时空分区平衡计算负载
配置HBM内存缓解带宽压力

7.2 卷积网络优化

ResNet18的实践建议：

早期层使用较小稀疏比(2:4)
后期层可增大到1:4
对1×1卷积采用特殊数据布局

8. 使用指南与问题排查

8.1 配置文件示例

system: array_rows: 64 array_cols: 64 cores: 4 memory: l1_size: 64KB l2_size: 512KB dram_channels: 4 sparsity: enabled: true block_size: 8 optimized_mapping: true

8.2 常见问题解决

性能低于预期：
- 检查DRAM通道是否饱和
- 验证稀疏比设置是否合理
- 调整数据流(WS/OS/IS)
内存溢出错误：
- 增加L2共享缓存大小
- 优化分区策略减少数据重复
- 启用更激进的稀疏压缩
模拟速度慢：
- 先使用分析模式筛选配置
- 限制跟踪详细程度
- 对大型模型分段模拟

9. 与其他工具对比

表1对比了主流模拟器的特性：

特性	MAESTRO	Timeloop	SCALE-Sim v3
周期精确	❌	❌	✔️
多核支持	❌	✔️	✔️
稀疏计算	❌	❌	✔️
DRAM建模	❌	❌	✔️
能耗估算	✔️	✔️	✔️

SCALE-Sim v3在保持周期精确的同时，提供了最全面的现代加速器特性支持。

10. 实际部署建议

在TPUv4类加速器上的优化经验：

对GEMM主导负载：
- 采用权重固定(WS)数据流
- 设置32×32子阵列
- 使用2:4稀疏比
对混合负载：
- 配置异构核(大阵列+小阵列)
- 向量操作交给SIMD单元
- 动态调整分区策略
内存敏感型应用：
- 优先增加通道数而非频率
- 使用HBM代替DDR
- 优化数据布局减少冲突

脉动阵列加速器与SCALE-Sim v3的稀疏计算优化