Arduino Nano离线语音识别：基于IIR滤波与模板匹配的嵌入式实现-平芜编程栈

1. 项目概述与核心思路

几年前，我在书架上翻出一份上世纪70年代末的IEEE语音识别报告，当时就冒出一个念头：那个年代需要占用整个房间的迷你计算机才能完成的工作，今天能不能用一块指甲盖大小的Arduino Nano来实现？这个想法听起来有点疯狂，毕竟Nano只有2KB的RAM和32KB的Flash，主频也就16MHz。但仔细一想，70年代的PDP-8或PDP-11小型机，其计算能力（约0.5到8 MIPS）和内存（2K到32K）与今天的Nano竟然处于同一数量级。这让我意识到，实现一个极简版的、离线的、针对特定人的小词汇量语音识别系统，在理论上是可行的。

市面上当然有更成熟的方案，比如依赖云端的Alexa或Google Assistant，或者基于树莓派等更强大平台的项目。但它们的共同点是需要网络连接或更高的算力。我的目标是探索在资源极度受限的微控制器上，实现完全本地的、无需联网的语音指令识别。想象一下，一个头戴式万用表、一个无屏幕的耳挂式微型电话，或者一个遥控机器人，如果只需要你对着它说几个简单的词（比如“前进”、“左转”、“播放”、“暂停”）就能控制，那该多酷。这种离线语音控制为那些对功耗、成本、隐私和实时性有严苛要求的嵌入式应用，打开了一扇新的大门。

这个项目的核心挑战在于，如何在有限的算力和内存下，完成从声音采集到特征提取再到最终识别的全过程。我的思路很直接：放弃通用的大词汇量连续语音识别，专注于单说话人、孤立词（Isolated Word）的识别。这就像从“听懂一段话”降级到“听懂一个口令”，难度大大降低，但实用性依然很强。整个系统分为硬件和软件两大部分：硬件负责高质量的声音信号采集和数字化；软件则需要在Nano上实时运行一套精简的算法流水线，包括数字滤波提取特征、分帧分段处理，最后通过模板匹配来“猜”出你说的是哪个词。

我实测下来，在安静环境下，对着麦克风清晰地说出0-9这十个数字，系统的识别率能达到90%-95%。这个成绩和70年代那些研究论文里的结果差不多，对于很多嵌入式控制场景来说，已经足够可靠了。需要提前说明的是，这不是一个“开箱即用”的傻瓜式项目，它更像一个可供你深入研究和改进的实验平台。你需要理解其原理，并根据自己的声音和环境进行训练和调优。下面，我就把这套系统的设计、实现细节以及我踩过的坑，毫无保留地分享出来。

2. 硬件系统搭建与信号调理

要让Arduino Nano“听见”声音，第一步是搭建一个可靠的前端电路。声音是模拟信号，而微处理器只认识数字，所以我们需要一个麦克风放大器模块将微弱的声波转换成电压信号，再由Nano内部的ADC（模数转换器）进行采样。

2.1 核心器件选型：为什么是MAX9814？

在众多麦克风放大模块中，我选择了MAX9814。原因很简单，它集成了三个对我们极其重要的功能：

低噪声麦克风放大器：能将驻极体麦克风的信号放大到适合ADC采样的电平。
自动增益控制（AGC）：这是一个“神器”。我们说话时声音忽大忽小，AGC能自动调整放大倍数，确保输出信号的幅度保持在一个相对稳定的范围内，避免声音太小被噪声淹没，或者声音太大导致信号削顶失真。
内置偏置电压：为麦克风提供了合适的工作电压，简化了外围电路。

如果你手头没有MAX9814模块，用常见的运放（如LM358）搭一个放大电路也完全可行，我后面会给出电路图。但MAX9814模块省心省力，价格也便宜，是快速上手的最佳选择。

2.2 电路连接与关键参数配置

MAX9814模块通常有四个引脚：GND（地）、VDD（电源，接5V）、GAIN（增益设置）、OUT（音频输出）和A/R（Attack/Release，攻击/释放时间控制）。

电源：VDD接Nano的5V引脚，GND接GND。
输出：OUT引脚需要连接到Nano的一个模拟输入引脚，例如A7。在代码中我们需要用const int AUDIO_IN = A7;来定义。
增益设置：GAIN引脚决定了AGC的增益档位。
- 接GND：增益最高，为50dB。适用于麦克风离嘴较远或环境非常安静的情况。
- 接VDD：增益中等，为40dB。这是我实测下来最推荐的设置，在麦克风靠近嘴边时，信噪比最佳。
- 悬空：增益最低，为60dB（无压缩）。容易因声音过大而饱和。
AGC时间控制：A/R引脚控制AGC的反应速度。
- 接GND：攻击/释放比为1:500，反应最快。
- 接VDD：比例为1:2000。
- 悬空：比例为1:4000，反应最慢。我选择悬空，让AGC缓慢平滑地调整，避免在语音间隙产生明显的噪声起伏。

实操心得：麦克风摆放有讲究千万不要把麦克风正对着嘴巴！爆破音（如p、t、k）产生的气流会冲击麦克风振膜，产生“噗噗”的噪声，严重干扰信号。我的做法是把麦克风模块固定在一个简易的“吊杆”上，让麦克风位于嘴角侧方约2-3厘米处。这样既能清晰拾音，又能有效避免喷麦。

2.3 信号调理：高通滤波与ADC参考电压

MAX9814的输出信号是交流耦合的，其直流分量大约在1.25V。为了优化后续的数字处理，我通常在输出和Nano的ADC引脚之间加入一个简单的RC高通滤波器。

电路设计思路：

目的：衰减语音中能量较强的低频部分（主要是基频），使整个频谱变得更平坦。这被称为“预加重”（Pre-emphasis），是语音处理的常见步骤，能让后续基于整数运算的特征提取更有效，同时减少信号削波的风险。
实现：一个简单的RC电路即可。例如，一个0.1uF的电容串联一个1kΩ的电阻，其截止频率约为1.6kHz。这意味着低于1.6kHz的频率会被衰减。

由于加入了电容，信号失去了直流偏置。我们需要用两个电阻（例如两个10kΩ）在Nano的3.3V和GND之间形成一个分压电路（得到1.65V），为ADC输入提供一个中间的直流偏置点，确保交流信号能在ADC的输入范围内上下摆动。

ADC参考电压的选择： Arduino Nano的ADC默认使用其内部的5V作为参考电压。但MAX9814的输出摆幅通常在0V到2.5V之间（以1.25V为中心）。使用5V参考，意味着0-2.5V的信号只利用了ADC量程的一半（0-512），分辨率浪费了。为了提高精度，我选择使用外部3.3V参考电压。将Nano的3.3V引脚连接到AREF引脚，并在代码中设置analogReference(EXTERNAL);。这样，0-3.3V的输入对应ADC的0-1023，我们的音频信号（0-2.5V）就能更充分地利用ADC的动态范围，获得更好的信噪比。

2.4 备选方案：基于LM358的自制放大电路

如果你等不及模块到货，手头有LM358运放和常见阻容元件，可以按以下思路搭建电路：

电源处理：Nano的5V和3.3V引脚噪声较大，需要用电阻和电容组成π型滤波器进行退耦，为运放和麦克风提供干净的电源。
放大电路：采用同相放大电路。麦克风信号通过一个电容耦合到运放的同相输入端。反相输入端通过电阻网络设置增益。总增益设置在200倍左右比较合适。
偏置与滤波：同样，需要用电阻分压（例如从滤波后的5V分得约1.65V）为运放提供偏置。在反馈网络中也可以融入高通滤波特性。

自制电路需要更多的调试，但能让你更深入地理解模拟信号调理的每一个环节。无论采用哪种方案，最终目标都是向Nano的ADC提供一个幅度适中、信噪比高、中心电压在ADC量程中点附近的音频信号。

3. 软件架构：从采样到识别的完整流程

硬件准备好了，接下来是更复杂的软件部分。整个系统的软件架构可以概括为“PC训练，Nano运行”。这是一个混合架构，充分利用了PC强大的计算能力进行复杂的模型（模板）训练，而将轻量级的识别任务交给Nano独立执行。

3.1 系统工作流程全景图

整个项目包含三个核心软件部分，它们协同工作：

SpeechRecog1.exe (PC端程序)：
- 功能一：计算滤波器系数。根据你设定的频带参数，计算出IIR数字滤波器所需的系数，并导出为Coeffs.h文件。
- 功能二：训练与生成模板。连接Nano，录制你所说的训练词汇（如“zero”, “one”…），计算每个词汇的平均特征（即模板）及其重要性权重，导出为Templates.h文件。
- 功能三：测试识别效果。用另一组录音测试生成的模板，评估识别准确率。
speechrecog1.ino (Arduino训练固件)：
- 此固件使用Coeffs.h中的系数。
- 它的任务是实时采集音频，进行滤波和分帧，然后将处理后的特征数据通过串口发送给PC端的SpeechRecog1.exe，用于训练。
speechrecog2.ino (Arduino识别固件)：
- 这是最终产品固件，同时包含Coeffs.h和Templates.h。
- 它独立运行在Nano上，完成从音频采集、滤波、特征提取到与模板匹配、输出识别结果的完整流程。

工作流程简述：

阶段一（准备）：在PC上运行SpeechRecog1.exe，计算并导出Coeffs.h。
阶段二（训练）：将Coeffs.h和speechrecog1.ino编译上传至Nano。运行PC程序，录制你的语音训练集，程序会分析数据并导出Templates.h。
阶段三（部署）：将Coeffs.h、Templates.h和speechrecog2.ino一起编译上传至Nano。现在，Nano就可以离线识别你训练过的词汇了。

3.2 核心算法原理：为什么是频带能量+模板匹配？

在资源受限的Nano上，我们无法运行现代复杂的神经网络或隐马尔可夫模型。必须回归到最本质、最轻量的语音特征和匹配方法。

1. 特征提取：从时域到频域语音识别的关键在于提取能区分不同发音的特征。最经典的特征之一是频带能量。人的元音（a, e, i, o, u）主要由其共振峰（Formant）的频率位置决定，而辅音则体现在频谱的快速变化和过零率上。

数字滤波器组：我们设计一组（例如4个）带通IIR滤波器，分别覆盖不同的频率范围（例如300-600Hz, 600-1200Hz, 1200-2400Hz, 2400-4800Hz）。这样，每个时刻的语音信号，我们都能得到它在4个不同频带上的能量（振幅）大小。这相当于一个极度简化的频谱。
过零率：除了频带能量，我们还计算过零率。即信号在单位时间内穿过零电平的次数。清辅音（如s, f）的过零率远高于元音和浊辅音，这是一个非常有效的区分特征。
为何选择IIR滤波器：相比FIR滤波器，IIR滤波器（特别是二阶双二阶滤波器）能用更少的阶数（更少的计算量）实现更陡峭的滚降特性。在Nano上，我们必须在计算复杂度和滤波效果间折衷，二阶IIR是现实的选择。

2. 时间规整：分帧与分段一个单词的发音可能持续0.5到1秒。我们以固定的时间窗口（例如50毫秒）对连续的滤波后信号进行切割，这个窗口称为一“帧”或“段”。在每个段内，我们计算5个特征（4个频带能量+1个过零率）的平均值或总和。假设一个单词由13个这样的段组成（总计650毫秒），那么一个单词就可以用一个13x5的矩阵来表示。这个矩阵就是该单词在这个特征空间里的“画像”。

3. 模板匹配：K最近邻的思想训练阶段，我们对每个词汇（如“one”）说多遍，得到多个13x5的矩阵，然后计算它们的平均值，得到一个“标准画像”，这就是模板。同时，我们计算这多遍录音中每个位置（13x5个点）数据的标准差。标准差大的地方，说明这个特征在发这个音时变化大，不那么重要；标准差小的地方则很稳定，重要性高。因此，我们为模板的每个点赋予一个“重要性”权重，权重与标准差成反比。

识别阶段，当新的语音到来，我们同样将其转化为一个13x5的矩阵。然后计算这个矩阵与每一个模板矩阵的“距离”。距离的计算是加权绝对值差之和：对应位置的特征值相减取绝对值，再乘以其重要性权重，最后将所有65个点的加权差求和。距离最小的那个模板，对应的词汇就是识别结果。

4. 动态时间规整的简化版：时间偏移同一个词，每次说的快慢总有细微差别。严格的逐段对比可能因时间没对齐而产生大误差。完全的动态时间规整计算量太大。我采用了一个简化策略：允许待识别的整个特征矩阵在时间轴上向左或向右平移最多2个段（约100毫秒），并在亚段级别进行插值。在匹配时，我们会为每个模板寻找一个最佳的平移量，使得距离最小。这个策略以很小的计算代价，显著提升了对语速变化的鲁棒性。

4. 关键代码实现与深度优化

理解了原理，我们来看代码实现上的关键点和优化技巧。在ATmega328这样的8位MCU上编程，必须斤斤计较每一个时钟周期和每一个字节的内存。

4.1 高速ADC采样：抛弃analogRead()

Arduino标准的analogRead()函数用起来方便，但效率太低。它每次调用都要重新配置ADC、选择通道、启动转换、然后忙等待转换完成，整个过程耗时约100微秒。对于目标8kHz的采样率（间隔125微秒），这几乎占用了全部时间，没有余力做其他处理。

我们必须使用寄存器级操作，实现ADC的“自由运行”模式。核心思想是：启动一次转换后，在等待转换完成期间，MCU可以去处理上一个采样点的数据。

// 在setup()中初始化ADC void setup() { analogReference(EXTERNAL); // 使用外部3.3V参考 analogRead(AUDIO_IN); // 调用一次，让Arduino库完成ADC基本配置 ADCSRA |= (1 << ADSC); // 手动启动第一次转换 } // 在主循环或中断中高效读取ADC int readADC() { while (!(ADCSRA & (1 << ADIF))); // 等待转换完成标志置位 byte low = ADCL; // 必须先读ADCL！ byte high = ADCH; // 再读ADCH ADCSRA |= (1 << ADIF); // 通过写1清除中断标志 ADCSRA |= (1 << ADSC); // 立即启动下一次转换 int val = (high << 8) | low; // 组合成10位结果 // ... 此时ADC已在后台进行下一次转换，我们可以处理val了 return val; }

注意事项：ADC读取顺序是铁律读取ADC结果寄存器ADCL和ADCH的顺序是固定的：必须先读ADCL，再读ADCH。这是AVR芯片的设计，当你读取ADCL时，ADC数据寄存器的内容会被锁定，直到ADCH也被读取，这样可以防止在读取过程中因ADC更新而产生高低字节错位。

4.2 实时数字滤波器的整数运算实现

我们使用二阶IIR（双二阶）滤波器。其差分方程通常表示为：y[n] = a0*x[n] + a1*x[n-1] + a2*x[n-2] - b1*y[n-1] - b2*y[n-2]

在PC上，系数a0, a1, a2, b1, b2是浮点数。但在Nano上，浮点运算非常缓慢。我们必须使用定点数运算。

定点数转换：我们将所有系数乘以一个缩放因子，例如65536(即0x10000或1<<16)，将其转换为整数。在计算过程中，我们使用32位整数（long）来保存中间结果，以防止溢出，最后再右移16位来得到实际的滤波输出。

滤波器状态保持：我们需要在全局或静态变量中保存过去两个输入值（x[n-1],x[n-2]）和过去两个输出值（y[n-1],y[n-2]）。对于每一个新的采样点x[n]，我们按照上面的公式（使用整数系数）计算出y[n]，然后更新这些状态变量。

代码结构示例：

// 假设系数已定义为整数，如 a0_fixed = (int)(a0 * 65536) long filter(int newSample, filterState_t *state) { // 使用64位中间结果防止溢出，这里用long long示意，实际需根据系数范围调整 long long acc = (long long)a0_fixed * newSample; acc += (long long)a1_fixed * state->x1; acc += (long long)a2_fixed * state->x2; acc -= (long long)b1_fixed * state->y1; acc -= (long long)b2_fixed * state->y2; // 缩放回实际值 int output = (int)(acc >> 16); // 更新状态：移位 state->x2 = state->x1; state->x1 = newSample; state->y2 = state->y1; state->y1 = output; return output; }

我们需要并行运行4个这样的滤波器实例，分别对应4个不同的频带。每个采样点到来，都要依次通过这4个滤波器，计算量不小。实测在16MHz的Nano上，实现4个二阶IIR滤波、加上过零率计算和能量累计，勉强能满足8kHz采样率的实时性要求。

4.3 特征提取与模板匹配的代码逻辑

1. 能量与过零率计算：在每个50ms的段内，我们持续累加每个滤波器输出值的绝对值（近似能量）和信号过零的次数。段结束时，将累加值除以采样点数，得到该段在该频带的平均能量和平均过零率。

2. 端点检测（VAD）：系统需要知道语音何时开始。我们设定一个能量阈值。当连续几个段的总能量（所有频带能量之和）超过这个阈值时，认为语音开始，并开始记录接下来的13个段作为一次完整的“发声”。

3. 归一化：不同次发音的音量可能不同。在匹配前，我们需要对这次发声的65维特征向量进行归一化，使其总能量达到一个标准值（例如100）。这消除了音量差异对匹配结果的影响。

4. 模板匹配核心函数：这是识别率的关键。函数需要遍历所有词汇模板，计算加权曼哈顿距离，并考虑时间偏移。

int recognize(int utterance[13][5]) { int bestWord = -1; int minDistance = INT_MAX; normalize(utterance); // 归一化 for (int wordIdx = 0; wordIdx < NUM_WORDS; wordIdx++) { int bestShift = findBestShift(utterance, wordIdx); // 找到最佳时间偏移 int dist = calculateShiftedDistance(utterance, wordIdx, bestShift); // 计算偏移后的距离 if (dist < minDistance) { minDistance = dist; bestWord = wordIdx; } } // 可以设置一个距离阈值，如果minDistance太大，则认为是未知词或噪声 if (minDistance < THRESHOLD) { return bestWord; } else { return -1; // 识别失败 } }

calculateShiftedDistance函数内部就是两层循环，遍历13个段和5个特征，计算重要性权重[word][seg][band] * abs(模板值[word][seg][band] - 输入值[seg][band])的累加和。

5. PC端工具使用与模型训练实战

理论最终要落地。SpeechRecog1.exe这个Windows工具是整个项目的“大脑”，负责完成Nano无法胜任的复杂计算。它的使用是项目成功的关键。

5.1 滤波器系数计算与导出

启动软件，进入“Calculate Coefficients”标签页。
设定频带：你需要决定4个带通滤波器的中心频率。我的建议是基于语音的共振峰分布。对于成年男性，第一共振峰（F1）大致在250-850Hz，第二共振峰（F2）在600-2500Hz。我们可以将频带在对数尺度上均匀划分，例如：300Hz, 600Hz, 1200Hz, 2400Hz。将上下限频率填入对应位置。
设置Q值：Q值决定了滤波器的带宽。Q值越高，带宽越窄，频率选择性越好，但可能造成频带间出现“缝隙”。Q值太低，则频带重叠严重，特征区分度下降。建议从2.0开始尝试。软件会根据你输入的频率和Q值，自动计算出4组滤波器系数（a0, a1, a2, b1, b2）。
导出系数：点击菜单File -> Export Coefficients，将生成的C语言数组定义保存为Coeffs.h文件。这个文件里就是转换好的定点整数系数。

5.2 录制训练集与生成模板

这是最需要耐心的一步。识别效果很大程度上取决于训练数据的质量。

准备硬件：将Coeffs.h和speechrecog1.ino编译上传到Nano。用串口线连接Nano和PC。
打开软件，进入“Templates -> Train Templates”标签页。
定义词汇表：在左侧的Memo控件中，每行输入一个你想要识别的词，例如：
```
zero one two three four five six seven eight nine
```
确保没有空行。
开始录音：点击菜单Utterances -> Record Training。在弹出的对话框中，设置每个词重复录制的次数，例如10次。软件会随机念出这些词（显示在对话框里），你需要对着麦克风清晰地读出显示的词。软件会控制Nano采集音频并传回。
训练技巧：环境与发音
- 环境：尽可能在安静、无回声的环境下进行训练。
- 一致性：每次发音的语调、速度和音量尽量保持一致。不要刻意夸张。
- 间隔：词与词之间稍有停顿，但不要过长，模拟自然触发。
- 麦克风位置：训练和后续使用时应保持麦克风位置相对固定。
查看与清理数据：录音完成后，网格中会填满数据。你可以点击任意格子，下方会显示该次录音的特征图。检查是否有明显异常的录音（比如被咳嗽声或巨大噪声干扰），可以将其删除或重新录制。
计算初始模板：录音完成后，软件会自动计算每个词汇所有录音的平均值，作为初始模板。
优化时间对齐：点击菜单Templates -> OptimalShift。这一步至关重要。软件会为训练集中的每一个样本，计算其相对于自己所属模板的最佳时间偏移，然后根据偏移后的数据重新计算模板的平均值和标准差。这能有效补偿同一词汇发音时长不一致的问题。
自我测试：点击Utterances -> Recognise -> RecogniseAll。软件会用刚生成的模板去识别训练集本身。理想情况下，识别率应该是100%或接近100%。如果某个词错误率很高，可能需要检查该词的录音质量，或调整滤波器频带。

5.3 录制测试集与性能评估

用训练集测试得到的高识别率可能存在“过拟合”。我们需要一个独立的测试集来评估模型的泛化能力。

切换到“Test Templates”标签页。
同样，在Memo中输入词汇（可以和训练集相同，也可以加入一些干扰词）。
点击Utterances -> Record Testing，录制一组全新的语音样本（例如每个词5次）。
点击RecogniseAll。软件会使用训练好的模板来识别这些从未见过的测试样本。
查看结果：网格中会显示识别结果。识别正确的会显示为绿色，错误的显示为红色。下方的统计信息会给出总体识别率。这才是系统真实性能的反映。我的项目在测试集上能达到90%-95%的正确率。

如果测试结果不理想，需要回溯：

训练数据不足或质量差：增加每个词的训练次数，确保录音清晰。
词汇相似度太高：比如“three”和“seven”在某些口音下容易混淆。可以考虑换用更差异化的词，或者增加特征维度（如果性能允许）。
滤波器频带设置不佳：回到第一步，调整频带中心频率或Q值，重新生成系数并训练。
环境噪声变化：训练和测试环境差异过大。

5.4 最终部署

当你对测试结果满意后：

点击菜单File -> Export Templates，将最终的模板数据（包括平均值和重要性权重）保存为Templates.h文件。
将Coeffs.h和Templates.h两个文件都复制到speechrecog2.ino草图所在的目录。
编译并上传speechrecog2.ino到Nano。
断开与PC的串口连接（或仅保留供电）。现在，你的Arduino Nano已经具备了离线识别特定词汇的能力！识别结果会通过串口打印出来，你可以修改代码，让识别结果去控制LED、舵机或其他任何设备。

6. 常见问题、调试技巧与进阶优化

在实际操作中，你几乎一定会遇到各种问题。下面是我在开发过程中总结的一些典型问题和解决方法。

6.1 硬件与信号问题排查

问题现象	可能原因	排查步骤与解决方案
串口绘图仪无信号或信号微弱	麦克风模块未供电或损坏；接线错误；增益设置过低。	1. 用万用表检查MAX9814的VDD是否为5V，GND是否接通。 2. 检查OUT引脚是否连接到正确的模拟引脚（如A7），代码中`AUDIO_IN`定义是否正确。 3. 尝试将GAIN引脚接GND（50dB最高增益）测试。
信号严重失真（削顶）	增益过高；说话声音太大；ADC参考电压错误。	1. 尝试将GAIN引脚接VDD（40dB）或悬空（60dB无压缩）。 2. 说话时离麦克风稍远或音量放轻。 3. 确认`analogReference(EXTERNAL);`已设置，且AREF引脚正确接到了3.3V。
背景噪音大，波形毛刺多	环境噪音大；麦克风灵敏度过高；电源噪声。	1. 在安静环境下测试。 2. 尝试降低增益（GAIN接VDD）。 3. 为Nano的5V和3.3V电源增加滤波电容（如并联一个10uF电解电容和一个0.1uF陶瓷电容）。 4. 检查麦克风模块的电源和地线是否接触良好。
识别率极低，且不稳定	端点检测阈值设置不当；训练数据质量差；环境噪声干扰识别。	1. 使用`speechrecog1.ino`和串口绘图仪，观察语音段的能量值。调整代码中的`ENERGY_THRESHOLD`，使其能稳定触发语音开始，又不会被噪声误触发。 2. 重新录制高质量的训练集，确保每次发音清晰、一致。 3. 在代码中增加一个简单的噪声门限：只有能量超过阈值的段才参与匹配，否则认为是静音。

6.2 软件与算法问题调试

编译错误‘nSegments’ was not declared：这是一个常见的文件包含问题。确保speechrecog2.ino的主文件（.ino文件）中包含了Coeffs.h和Templates.h，并且这两个头文件里正确定义了nSegments(应为13) 和nBand(应为4) 等常量。不要在多个地方重复定义这些常量。
识别结果总是同一个词：这通常意味着特征提取出了问题，导致所有输入的特征向量都相似（比如能量都很低）。首先用speechrecog1.ino配合PC软件，查看发送到PC的特征数据是否正常（不同词的图形应有明显差异）。检查ADC采样值是否正常（应在0-1023范围内波动），检查滤波器系数是否正确加载，检查过零率计算是否有误（可能需要调整过零检测的迟滞阈值以抗噪声）。
特定词对混淆严重：例如“three”和“seven”总是分不清。这说明当前的特征（4个频带能量+过零率）不足以区分这两个词。可以尝试：
1. 调整频带：在SpeechRecog1.exe中微调混淆词所在的主要频率范围的滤波器中心频率。
2. 增加特征：如果MCU资源还有盈余，可以尝试增加一个频带滤波器。
3. 修改词汇表：在应用层面，用更不易混淆的词替代，如用“go”代替“four”。
PC端软件SpeechRecog1.exe闪退或报错：该程序是用Delphi编写的，可能需要特定的运行库。确保在Windows系统上运行。如果遇到控件缺失错误（如缺少AdPort.dcu），可能需要安装旧版的串口通讯组件。一个更简单的方法是：直接使用作者编译好的exe文件，不要尝试在缺失组件的环境下重新编译Delphi工程。

6.3 性能与资源优化进阶思路

如果你对识别率或系统性能有更高要求，可以尝试以下方向：

特征工程优化：
- MFCC简化版：梅尔频率倒谱系数是语音识别的黄金标准特征。虽然完整计算在Nano上不可能，但可以尝试计算滤波器组能量后的对数能量，这能更好地模拟人耳听觉特性。
- 差分特征：不仅使用当前段的能量，还加入当前段与前后段能量的差值（一阶差分），甚至差分的差分（二阶差分）。这能捕捉语音的动态变化信息，显著提升区分度，但会增加特征维度和计算量。
分类算法改进：
- 动态时间规整：我实现的是全局平移，完整的DTW能实现更精细的非线性对齐，但计算复杂度是O(N²)，对于13个段，计算量尚可接受，可以尝试在Nano上实现一个简化版的DTW。
- 轻量级机器学习：如果识别词汇量不大（<20），可以考虑实现一个超小的神经网络（例如一个只有几個神经元的单隐层网络）。训练仍在PC上进行，训练好的权重（整数化后）固化到代码中。Nano上的前向传播只是一些乘加运算，负担可能比模板匹配的穷举搜索更小。
系统级优化：
- 定时器中断驱动采样：将ADC采样放在一个高优先级的定时器中断中，确保采样间隔绝对精确，避免因主循环其他任务执行时间波动导致采样率不稳定。
- 降低采样率：对于小词汇量、成人语音，采样率降到6kHz甚至4kHz也许足够，这能直接减轻滤波和后续处理的计算压力。
- 汇编优化：对滤波器和距离计算的最内层循环用AVR汇编重写，可以大幅提升速度。

这个项目最大的乐趣在于，它为你打开了一扇窗，让你看到在极其有限的资源下能实现什么。它不是终点，而是一个起点。你可以基于这个框架，替换更好的特征提取方法，尝试更高效的匹配算法，或者将它集成到一个真正的产品原型中。当你说出“开灯”，而眼前的LED应声点亮时，那种亲手赋予机器“听觉”的成就感，是无与伦比的。希望我的这些经验和代码，能成为你探索嵌入式语音世界的一块坚实跳板。