FIR内插滤波器的FPGA实现(一)-从MATLAB仿真到硬件架构的思维转换-平芜编程栈

1. FIR内插滤波器的基本原理

第一次接触FIR内插滤波器时，很多人会被"内插"和"滤波"这两个概念搞晕。其实它的工作原理很简单，就像我们平时给照片做插值放大一样。想象你有一张低分辨率的照片（原始信号），想要把它放大到更高分辨率（提高采样率）。直接拉伸会导致图像模糊（频谱混叠），所以需要在放大后做一次锐化处理（低通滤波）。

具体到数字信号处理，FIR内插滤波器的工作分为两个关键步骤：

插零操作：在每个原始采样点之间插入L-1个零值。比如原始采样序列是[x1,x2,x3]，2倍插值后就变成[x1,0,x2,0,x3,0]。这个操作在频域上会产生L-1个镜像频谱。
低通滤波：通过设计合适的FIR滤波器，保留基带信号（相当于照片中的真实细节），同时抑制镜像频谱（相当于去除插值产生的伪影）。滤波后的输出就是我们需要的高采样率信号。

在MATLAB中验证这个原理特别直观。我常用下面这段代码给学生演示：

% 生成测试信号 Fs = 1000; % 原始采样率 t = 0:1/Fs:0.1; f = 50; % 信号频率 x = sin(2*pi*f*t); % 4倍插值 L = 3; % 插值倍数-1 x_zeros = zeros(1, length(x)*(L+1)); x_zeros(1:L+1:end) = x; % 插零操作 % 设计滤波器 fir = designfilt('lowpassfir', 'FilterOrder', 100, ... 'CutoffFrequency', 0.25, 'SampleRate', Fs*(L+1)); % 滤波处理 y = filter(fir, x_zeros) * (L+1); % 注意增益补偿

运行这段代码时，建议用fvtool(fir)查看滤波器频率响应，再用spectrogram对比处理前后的频谱变化。你会发现插零操作就像把原始频谱"复印"了多份，而滤波器的作用就是精确地只保留我们需要的那一份。

2. MATLAB仿真中的关键验证点

在实际项目中，MATLAB仿真阶段需要特别关注几个关键指标。去年我做音频处理项目时，就因为没有充分验证这些点，导致后期FPGA实现时遇到了采样率不匹配的问题。

频谱分析是最基础也最重要的验证环节。我习惯用三张图来观察：

原始信号的时域和频域图
插零后的频域图（应该看到频谱周期性延拓）
滤波后的时频域图（应该只有基带信号被保留）

这里有个实用技巧：在观察频域图时，一定要正确设置横轴范围。比如原始信号采样率是Fs，插值L倍后新采样率是(L+1)*Fs，那么频谱显示范围应该对应调整到±(L+1)*Fs/2。我曾经就因为这个细节没注意，误判了滤波器性能。

滤波器设计是另一个需要反复调试的部分。在MATLAB中有三种常用方法：

filterDesigner图形化工具（适合快速原型设计）
designfilt函数（适合脚本化设计）
fir1/firpm等函数（提供更底层控制）

对于内插滤波器，有几个参数特别关键：

通带截止频率：通常设为原始信号最高频率的0.8倍左右
阻带起始频率：要确保能抑制第一个镜像频带
纹波控制：通带纹波影响信号幅度精度，阻带衰减决定镜像抑制能力

这是我常用的滤波器设计模板：

% 滤波器规格示例（4倍插值） Fs_orig = 1000; % 原始采样率 Fs_new = 4000; % 新采样率 f_pass = 0.2*Fs_orig; % 通带截止 f_stop = 0.3*Fs_orig; % 阻带起始 fir = designfilt('lowpassfir', ... 'FilterOrder', 120, ... 'PassbandFrequency', f_pass, ... 'StopbandFrequency', f_stop, ... 'PassbandRipple', 0.1, ... 'StopbandAttenuation', 80, ... 'SampleRate', Fs_new);

插零实现看似简单，但在MATLAB中有性能陷阱。初学者常用循环插零，像这样：

y_zeros = []; for i = 1:length(x) y_zeros = [y_zeros, x(i), zeros(1,L)]; end

这种方法在小数据量时没问题，但当信号长度超过10000点时，拼接操作会变得非常慢。更高效的做法是预分配数组并索引赋值：

y_zeros = zeros(1, (L+1)*length(x)); y_zeros(1:L+1:end) = x;

3. 从MATLAB到硬件架构的思维转换

从仿真到硬件实现，最大的挑战是思维方式的转变。在MATLAB里我们习惯用向量化操作处理整个信号，而FPGA需要更关注数据流的实时处理。这里分享几个我在项目实践中总结的关键点。

资源意识是首要转变。MATLAB中设计一个254阶的滤波器就是一行代码的事，但在FPGA中这会消耗大量DSP Slice。以Xilinx的Artix-7为例，每个DSP48E1单元可以做一次乘加运算，整个芯片可能只有几十到几百个这样的单元。因此必须考虑：

如何降低滤波器阶数（通过优化过渡带设计）
如何复用乘法器（时分复用）
如何利用对称系数特性（线性相位FIR有一半系数对称）

并行度设计需要权衡速度和资源。FIR滤波器的直接形式有很高的并行性，可以同时计算所有乘积累加。但在高阶情况下，完全并行实现会消耗过多资源。通常的折中方案是：

对短滤波器（<16阶）采用全并行结构
对中等长度滤波器采用半并行结构（如一次处理4个tap）
对长滤波器采用串行结构（配合流水线）

数据流控制是另一个关键差异点。MATLAB处理的是完整信号块，而FPGA需要处理连续的数据流。这意味着：

需要设计合适的缓冲机制（如FIFO）
要考虑数据速率转换（插零后数据速率提高）
必须处理边界条件（如滤波器初始状态）

这是我常用的FPGA实现框架：

输入接口模块（处理原始采样数据）
插零控制模块（生成零插入的数据流）
滤波器核心（乘累加引擎）
输出接口模块（处理速率转换）

4. 硬件优化技巧与实战经验

在实际FPGA项目中，直接移植MATLAB设计往往效率低下。经过多个项目的迭代，我总结出几个关键优化技巧。

乘法器优化是最直接的资源节省点。由于插零操作产生了大量零值，常规FIR实现中大部分乘法是无效的。聪明的做法是：

识别非零输入样本的位置
只在这些位置激活乘法器
动态选择滤波器系数子集

以50倍插值为例，传统实现需要254次乘法，而优化后每次只需5-6次有效乘法。对应的Verilog代码结构类似：

always @(posedge clk) begin if (data_valid) begin // 非零样本到达 // 加载对应的系数组 coeff_set <= select_coeffs(phase_counter); phase_counter <= (phase_counter == 49) ? 0 : phase_counter + 1; end // 乘累加操作只对有效系数进行 for (int i=0; i<ACTIVE_TAPS; i++) begin product[i] <= data_reg * coeff_set[i]; end accumulator <= sum(product); end

系数存储优化也很重要。常规做法是用ROM存储所有系数，但这样会占用大量存储资源。替代方案包括：

利用对称性只存储一半系数
分块存储系数并按需加载
对多相分解后的子滤波器分别存储

时序优化关系到能否达到目标时钟频率。关键技巧有：

合理设置流水线级数（在乘累加关键路径插入寄存器）
使用树形加法结构代替链式加法
对长位宽数据采用进位保留加法器

下面是一个优化后的乘累加结构示意图（Verilog实现）：

// 三级流水线乘累加 reg [31:0] stage1 [0:5]; reg [31:0] stage2 [0:2]; reg [31:0] result; always @(posedge clk) begin // 第一级：并行乘法 for (int i=0; i<6; i++) begin stage1[i] <= data * coeff[i]; end // 第二级：部分和 stage2[0] <= stage1[0] + stage1[1]; stage2[1] <= stage1[2] + stage1[3]; stage2[2] <= stage1[4] + stage1[5]; // 第三级：最终累加 result <= stage2[0] + stage2[1] + stage2[2]; end

验证策略也需要特别设计。我通常会建立这样的验证流程：