现在流行的ai机器人必备技能吗?
| 缩写 | 英文全称 | 中文名称 | 核心原理 | 核心作用 | 典型场景 | 嵌入式特点 |
|---|---|---|---|---|---|---|
| VAD | Voice Activity Detection | 语音活动检测 | 通过音频能量、过零率、频谱特征,区分人声、静音、环境噪声 | 1. 人声端点检测,截断无效静音2. 低功耗待机唤醒3. 减少后端算法运算量 | 智能音箱、离线语音设备、低功耗穿戴设备 | 算力需求极低,可 MCU 轻量运行,降低整机功耗 |
| ASR | Automatic Speech Recognition | 自动语音识别 | 提取语音特征,结合声学模型 + 语言模型,将声波信号解码为文本 | 实现语音→文字转换,分为离线本地识别、云端在线识别 | 语音控制、语音录入、实时转写、设备指令交互 | 轻量模型可部署在嵌入式 SoC,大模型依赖云端 / 高算力芯片 |
| TTS | Text To Speech | 语音合成 | 对文本做分词、韵律处理,拼接 / 生成人声频谱,合成自然语音音频 | 实现文字→语音播报,支持调节音色、语速、音量 | 设备提示音、导航播报、问答语音回复、告警播报 | 算法成熟、资源占用适中,中端嵌入式设备可稳定部署 |
| LLM | Large Language Model | 大语言模型 | 基于 Transformer 架构,海量文本预训练,具备上下文语义理解与逻辑生成能力 | 语义解析、多轮对话、逻辑推理、指令拆解、内容生成 | 智能问答、人机对话、复杂指令解析、多模态交互 | 本地轻量化 LLM 需搭载 Linux 高端 SoC,原生 MCU 无法运行 |
完整串联工作流程
麦克风音频采集 →VAD静音过滤 + 人声唤醒 →ASR语音转文字 →LLM语义理解 & 应答生成 →TTS文字合成语音 → 喇叭播放输出