SRAM存内计算在Massive MIMO信号检测中的高能效架构与设计权衡-平芜编程栈

1. 项目概述：当Massive MIMO遇上SRAM存内计算

在5G向6G演进的路上，Massive MIMO（大规模多输入多输出）技术无疑是提升频谱效率和系统容量的基石。然而，随着基站天线数量（N）和用户数（K）的激增，基带信号处理的复杂度呈指数级增长，尤其是信号检测环节。想象一下，一个128x16的天线阵列，每时每刻都在进行高维度的矩阵求逆和矩阵-向量乘法（C-MVM），传统的数字架构很快就在“内存墙”和“功耗墙”面前捉襟见肘。数据在内存和计算单元之间来回搬运所消耗的能量，常常远超计算本身，这成了提升系统能效的瓶颈。

正是在这个背景下，存内计算（In-Memory Computing, IMC）进入了我们的视野。它并非一个全新的概念，但在SRAM上实现模拟计算，并将其应用于对精度有严苛要求的通信基带处理，却是一个大胆且充满挑战的尝试。我们团队最近深入研究了基于SRAM的存内计算架构在Massive MIMO信号检测中的应用，核心目标就一个：在确保检测精度满足通信标准（如3GPP EVM规范）的前提下，最大限度地榨取能效潜力。

简单来说，我们不想再做“搬运工”了。传统数字加速器就像一个大厨房，食材（数据）存放在冷库（内存），厨师（计算单元）需要什么就跑过去拿，来回奔波消耗了大量体力（能量）。而SRAM-IMC的思路，是把微型厨房（计算单元）直接建在冷库的每个货架（存储单元）旁边。当需要做一道菜（比如矩阵乘法）时，食材就地处理，极大减少了无谓的走动。这项工作的挑战在于，模拟计算天生会引入非理想因素，如电容失配、ADC量化噪声等，这些“厨房油烟”会不会把菜做咸了（精度下降）？我们的研究，就是系统地探索这片“味道”与“能耗”的权衡地带，为下一代高能效基站芯片寻找一个可行的设计蓝图。

2. 核心思路与架构设计拆解

2.1 为什么是SRAM？为什么是Massive MIMO？

在众多存内计算技术中（如ReRAM, FeFET等），我们选择基于SRAM的电荷再分配架构，主要基于几点考量。首先，SRAM工艺成熟，与标准CMOS流程兼容性好，易于集成和规模化。其次，相较于嵌入式非易失性存储器（eNVM）基的IMC，SRAM-IMC在能效和计算密度上具有显著优势（文献显示约14倍能效和57倍计算密度提升），这主要得益于eNVM需要复杂的读出电路。最后，电荷再分配架构相比电流-电压转换等其他模拟计算方式，对晶体管失配等非理想因素更具鲁棒性，这对于保证计算精度至关重要。

Massive MIMO信号检测，特别是线性检测器如LMMSE（线性最小均方误差），其核心运算可以分解为两部分：1）计算检测矩阵W（涉及矩阵求逆，C-MI），2）对每个接收符号执行检测矩阵与接收向量的乘法（C-MVM）。这里存在一个关键的时间尺度差异：无线信道的相干时间（Tc）通常远大于符号周期（Ts），可达数百至上千倍。这意味着，检测矩阵W在很长一段时间内（数百个符号周期）是保持不变的，而C-MVM运算则需要每个符号周期都执行一次。因此，即使矩阵求逆运算本身很复杂，但其开销可以被分摊到大量的C-MVM运算中。我们的策略因此聚焦于用SRAM-IMC来加速这个最频繁、最耗能的C-MVM操作，这是能效提升的“主战场”。

2.2 权重映射策略：双Bank架构的巧思

将复数域的C-MVM映射到实数的SRAM-IMC阵列上，需要巧妙的映射策略。输入论文提到了两种架构：单Bank架构和双Bank架构。

单Bank架构（如图3a所示）将复数矩阵的实部WR和虚部WI同时映射到一个具有2N行、2K*Bw列的IMC阵列中。虽然直观，但这种方法存在明显缺陷：首先，WR和WI被重复存储，造成了存储资源的浪费，面积效率低。其次，它需要同时激活2N行，这加剧了模拟计算中的非理想效应（如电容失配、寄生电容影响），对精度不利。

我们采用并深入优化了双Bank架构（如图3b所示）。在这个设计中，我们将复数检测矩阵W的实部WR和虚部WI分别映射到两个独立的IMC Bank中，每个Bank只有N行、K*Bw列。运算时，接收信号向量y的实部yR和虚部yI按时分复用的方式依次输入这两个Bank。每个Bank独立完成一次实数矩阵-向量乘法，得到中间结果。最后，通过数字加法器和减法器，按照公式[eR; eI] = [WR, -WI; WI, WR] * [yR; yI]将两个Bank的结果进行组合，得到最终的复数输出。

实操心得：架构选择的关键双Bank架构虽然增加了一些数字逻辑（加法器/减法器）和时序控制复杂度，但其带来的好处是决定性的。它使每个IMC Bank的规模减半，降低了模拟计算的难度，提升了精度潜力。同时，它避免了权重重复存储，提高了存储效率。在芯片设计中，数字逻辑的能耗和面积开销通常远小于模拟部分，尤其是大规模阵列。因此，用一点点数字电路的代价，换取模拟核心部分的性能和能效大幅优化，是非常划算的交易。

2.3 行为建模：从晶体管到系统性能的桥梁

要评估一个IMC-based检测器的最终性能（误码率、EVM），不能只停留在架构层面，必须深入到电路非理想因素。我们建立了一个基于28nm CMOS工艺的、电路感知的行为级模型，它连接了晶体管级的物理效应和系统级的通信指标。

我们的模型主要考虑了以下四个关键的非理想因素，它们共同构成了精度与能效权衡的核心：

电容失配（Capacitor Mismatch）：IMC阵列中成千上万个存储电容（CQR）由于工艺波动，其容值存在随机偏差。我们使用高斯分布δCQR,i ~ N(0, κ²·CQR)来建模这种失配，其中κ是工艺相关的失配参数。失配会导致电荷再分配后，电容线（CL）上的电压VCL偏离理想值。
寄生电容（Parasitic Capacitance）：连接所有存储电容下极板的金属线（CL）本身存在寄生电容CP。它会与存储电容形成分压，降低信号电压摆幅，公式为CP = m*N*CQR + c，其中m和c是通过后仿提取的常数。N越大，寄生电容的影响越显著。
ADC热噪声（ADC Thermal Noise）：用于量化VCL的逐次逼近寄存器（SAR）ADC，其比较器和DAC会引入热噪声。我们将其建模为输入参考噪声ηADC ~ N(0, σ²_ADC)。这个噪声会直接叠加在待量化的电压信号上。
ADC量化误差（ADC Quantization Error）：将模拟电压VCL转换为数字码字时，必然引入量化误差q_e。其大小取决于ADC的精度（位数BADC）和量化特性（均匀/非均匀量化、是否限幅等）。

最终，IMC计算出的带噪声的电压值V_hat_j,k可以表示为：V_hat_j,k = ( Σ w_j(i)y_k(i) * VDD * (CQR + δCQR,i) ) / ( Σ (CQR + δCQR,i) + CP ) + ηADC + q_e

这个模型使我们能够在系统仿真中快速、准确地评估不同电路参数（CQR, BADC, σADC）和系统参数（N, K, 调制阶数M）下检测器的符号错误率（SER）和误差向量幅度（EVM），而无需进行耗时的晶体管级电路仿真，为大规模设计空间探索提供了可能。

3. 能效-精度权衡的深度解析与设计空间探索

基于上述模型，我们可以清晰地梳理出SRAM-IMC Massive MIMO检测器中，各个关键参数如何像“旋钮”一样，调节着能效和精度这两个常常冲突的目标。

3.1 关键参数的影响机制

下表总结了主要设计参数和信道条件对能效（Eb）和精度（EVM/SER）的影响趋势及内在原因��

参数	对精度的影响	对能效的影响	内在原因与权衡
输入精度 (By)	↑ By → ↑ 精度	↑ By → ↑ Eb (能耗)	更高的By减少了输入信号的量化损失，但需要更多的比特串行周期，增加了IMC Bank的激活次数和总能耗。
权重精度 (Bw)	↑ Bw → ↑ 精度	↑ Bw → ↑ Eb (能耗)	更高的Bw能更精确地逼近浮点检测矩阵，但需要更多的ADC列（每列对应一个权重比特），增加了模拟和数字硬件开销。
存储电容 (CQR)	↑ CQR → ↑ 精度	↑ CQR → ↑ Eb (能耗)	更大的CQR降低了相对失配(δCQR/CQR)，提升了计算电压的稳定性。但同时，输入驱动电路需要驱动更大的容性负载，驱动能耗`E_IA ∝ NCQRVDD²`线性增加。
ADC精度 (BADC)	↑ BADC → ↑ 精度 (直到⌈log₂N⌉)	↑ BADC → ↑ Eb (能耗)	更高的BADC降低了量化误差，但SAR ADC的能耗随精度指数增长`E_ADC ∝ k1BADC + k24^BADC`。超过⌈log₂N⌉后，额外精度可能过拟合噪声，反而有害。
ADC热噪声 (σ_ADC)	↑ σ_ADC → ↓ 精度	↓ σ_ADC → ↑ Eb (能耗)	更低的噪声要求需要更高性能（通常更耗能）的比较器和DAC。放松噪声规格可以降低ADC设计难度和能耗。
基站天线数 (N)	影响复杂：↑N通常↑精度（降低K/N）但↑量化误差	↑ N → ↑ Eb (能耗)	增加N降低了用户间干扰，但激活更多IMC行会恶化寄生电容和量化误差的影响。同时，驱动能耗随N线性增加。
调制阶数 (M)	↑ M → ↓ 精度	↑ M → ↓ Eb (比特能效)	高阶调制（如64-QAM）对量化噪声更敏感，但每个符号承载的比特数（log₂M）更多，分摊了每次运算的能耗。

3.2 系统化的设计空间探索方法论

面对如此多维的设计空间，盲目仿真是低效的。我们提出了一套层次化的设计空间探索流程，旨在快速锁定在满足目标精度下，能效最优的设计点。

第一步：确立数字定点（FX）基线首先，我们需要一个锚点。对于给定的MIMO信道（如Argos 96x8）和调制方式（QPSK/16-QAM/64-QAM），我们仿真浮点（FP）LMMSE检测器的EVM vs. RX SNR曲线。找到满足3GPP EVM规范所需的工作SNR点，并在此基础上预留约3dB的余量（Margin）。然后，我们扫描输入和权重精度（By, Bw），找到能满足该EVM余量的最小定点精度组合。这个数字定点检测器的性能，将成为后续IMC设计需要追赶的“基线”。例如，对于Argos信道，我们确定QPSK需要By=Bw=5比特，16-QAM需要6比特，64-QAM需要7比特。

第二步：逐项优化IMC电路参数在固定了By和Bw之后，我们开始逐个优化IMC的电路参数，每次只变动一个，观察其对EVM的影响，目标是使IMC的EVM degradation相对于数字FX基线控制在0.5 dB以内。

优化存储电容CQR：在设定BADC=⌈log₂N⌉和σADC=0.5 mV的前提下，扫描CQR。我们发现，对于N≤128的信道，CQR > 0.1 fF即可满足精度要求；而对于N=256的信道，需要CQR > 0.3 fF。考虑到28nm工艺下实现1 fF左右的MOM电容是可行且稳定的，电容失配在设计中并不是主要瓶颈。
优化ADC精度BADC：固定CQR（如1 fF）和σADC，扫描BADC。一个关键发现是：存在一个最优的BADC值，通常为⌈log₂N⌉。此时，ADC的量化电平与电容线可能出现的电压电平完美对齐。低于此值，量化误差大；高于此值，额外的量化电平会“放大”热噪声，反而损害精度。通过对ADC输入范围进行最优限幅，我们甚至可以将BADC需求再降低1-2比特，从而大幅节约能耗（因为ADC能耗随BADC指数增长）。
评估ADC热噪声σADC容限：最后，我们评估ADC热噪声的要求。对于N=64的信道，σADC ≤ 1.1 mV即可；N=96/128时，需≤ 0.7 mV；而对于N=256，要求则严苛到≤ 0.2 mV。这揭示了大规模阵列下的一个严峻挑战：随着N增大，电容线电压变化的LSB电压减小，系统对噪声更加敏感。实践中，设计σADC=0.5 mV的SAR ADC是可行的，但这限制了单Bank的最大行数N，对于超大规模MIMO，必须采用多Bank并行架构。

4. 仿真结果与性能对比

通过上述设计空间探索，我们为不同规模的MIMO系统找到了SRAM-IMC检测器的可行设计点，并与其数字对手进行了全面对比。

4.1 精度表现：满足标准，代价可控

图12（源于论文）展示了优化后的SRAM-IMC检测器在不同信道和调制下的EVM和SER性能。所有IMC检测器均能满足3GPP 5G NR的EVM上限要求。关键在于评估其“信噪比惩罚”（RX SNR penalty），即在达到相同EVM指标时，IMC检测器相比理想数字浮点检测器需要额外多少dB的接收信噪比。

对于N≤128的信道（如64x8, 96x8, 128x16）：在所有调制方式下（QPSK, 16-QAM, 64-QAM），RX SNR penalty均低于0.1 dB。这意味着，在付出可忽略的精度代价下，我们获得了IMC的能效优势。
对于N=256的信道（256x16）：RX SNR penalty增大到约1 dB。这主要是由于前文提到的ADC热噪声限制。当N很大时，即使采用了最优的BADC和CQR，σADC=0.5 mV的噪声仍然成为了精度瓶颈。这从实践上指明了单一阵列的规模上限。

4.2 能效优势：显著且可扩展

能效的提升是IMC方案最吸引人的地方。我们与一篇代表性的数字检测器工作（Castañeda et al., JSAC 2020）进行了归一化对比。能量效率以每比特信息消耗的能量（Eb）来衡量。

图13（源于论文）清晰地表明，SRAM-IMC检测器实现了7.2倍到18.7倍的能效提升，且提升幅度随着基站天线数N的增加而增大。这完美印证了公式(22)的洞察：IMC的能效优势Eb,IMC/Eb,DIG ∝ (αCQRVDD² + (k1BADC+k24^BADC)/N) / (EMAC+Eread)。在数字架构中，能量主要消耗在内存访问（Eread）和数字MAC运算（EMAC）上。而在IMC中，核心能耗来自驱动电容（αCQRVDD²）和ADC开销。ADC的能耗被N行分摊，因此N越大，IMC的能效优势越明显。

4.3 面积与吞吐量考量

除了能效和精度，实际部署还需考虑面积和吞吐量。

面积：SRAM-IMC架构将计算嵌入到高密度存储阵列中，面积优势巨大。我们估算，一个用于128x16 MIMO的IMC检测器，在28nm工艺下总面积小于0.125 mm²，其中存储阵列本身不到0.025 mm²。这比一个同等功能的数字CMVM核心（文献[23]）面积小约36.8倍。这意味着我们可以在同样面积下集成更多处理单元，并行处理多个子载波。
吞吐量与延迟：IMC-based检测器的延迟L_IMC = 2 * By * BADC / f_CK。对于5G NR最短的OFDM符号周期4.46 µs，假设By=7, BADC=6，所需的最小时钟频率f_CK,min仅为18.8 MHz。而现有的SRAM-IMC芯片工作频率可达200-566 MHz，因此吞吐量完全不是瓶颈，甚至有很大的余量。

5. 实际部署考量与未来方向

5.1 可扩展性与可编程性

真正的Massive MIMO系统可能需要支持可变的天线配置（如从64x8到256x32）、不同的调制编码方案，并适应变化的信道条件。这就要求硬件具备一定的可编程性和灵活性。

扩展性：对于超过单Bank规模（如N>256）的超大规模MIMO，可以通过多Bank并行的方式扩展。例如，一个(64x512)x(512x1)的C-MVM可以分解为4个独立的(64x128)x(128x1)子运算，分别映射到4组双Bank IMC中，最后用数字逻辑合并结果。这样，每个子Bank仍然工作在N=128的优化点上，保持了精度和能效。
可编程性：已有研究展示了用于深度学习的可编程IMC处理器，能够重配置比特精度、数据流和权重加载机制。将这种思路引入通信基带处理是未来的方向。一个可编程的IMC Massive MIMO加速器需要支持：1）动态调整计算精度（By, Bw）以适应不同调制和信道条件；2）灵活映射不同规模的矩阵运算；3）可能集成简单的控制逻辑来切换检测算法（如ZF, LMMSE）。这会在能效和灵活性之间进行新的权衡。

5.2 挑战与未竟之路

尽管前景光明，但将SRAM-IMC用于Massive MIMO检测仍面临挑战，也是未来研究的焦点：

超越线性检测：本文聚焦于LMMSE等线性检测器。然而，更高性能的非线性检测算法（如近似消息传递、球型解码）能否有效映射到IMC架构上？这些算法中的非线性操作（如非线性函数计算、排序）是模拟存内计算不擅长的，可能需要数模混合的异构设计。
信道估计与矩阵求逆：我们假设了理想信道状态信息（CSI），并将研究重点放在C-MVM上。然而，在实际系统中，信道估计和检测矩阵（W）的计算本身也是计算密集型任务。探索用IMC加速信道估计（如基于最小二乘的算法）甚至矩阵求逆操作，是构建完整IMC基带处理器的关键一步。
工艺角与温度变化：本文的行为模型基于典型的工艺角。在实际芯片中，工艺偏差和温度变化会改变晶体管和电容的特性，进而影响计算精度。需要研究校准技术（如后台校准、数字辅助的模拟计算）来增强IMC检测器的鲁棒性。
系统集成与验证：最终需要流片验证。设计一个包含IMC计算阵列、高精度ADC、数字后处理单元以及片上前端接口的完整原型芯片，并在真实的或模拟的无线信道下进行系统级性能测试，是证明其可行性的终极步骤。

6. 总结与个人体会

回顾这项研究，SRAM存内计算为Massive MIMO信号检测这一通信领域的核心难题，提供了一条极具吸引力的高能效解决路径。我们的工作系统性地证明了，通过精心地协同设计算法、架构和电路，可以在几乎不牺牲检测精度（RX SNR penalty < 0.1 dB for N≤128）的前提下，实现一个数量级左右的能效提升。

从我个人的工程实践角度看，这项工作的核心启示在于**“精准权衡”** 和“系统视角”。IMC不是银弹，它的优势（能效）和劣势（模拟非理想性）同样突出。成功的秘诀不在于追求某个局部指标（如最小化每比特操作能量E_op1）的极致，而在于从系统最终指标（Eb, EVM）出发，反向推导对每个电路参数的要求。例如，我们发现一味降低CQR来省电是行不通的，因为微小的电容失配会迅速吞噬精度收益；同样，ADC精度也不是越高越好，存在一个与阵列规模N相关的最优点。

对于后来者，如果你想踏入存内计算与通信交叉领域，我的建议是：首先吃透通信算法的计算本质（哪些是线性/非线性，哪些是静态/动态），然后深刻理解模拟电路的非理想性如何被建模和传递，最后用系统级的仿真工具（如我们开发的Python行为模型）将两者连接起来，进行快速的设计空间探索。这个领域正在蓬勃发展，从纯粹的学术研究走向原型芯片和潜在的实际应用，充满了机遇。下一步，我们实验室正着手将这套设计方法应用于更复杂的检测算法和完整的基带处理链，并计划进行流片验证，这将是检验这些想法能否真正落地的关键一战。