news 2026/6/11 5:05:44

ICASSP前沿:多领域AI与语音技术研究概览

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ICASSP前沿:多领域AI与语音技术研究概览

对话式AI

声学事件分类

  • FedRPO:用于声学事件分类的联邦松弛帕累托优化
    • Meng Feng, Chieh-Chi Kao, Qingming Tang, Amit Solomon, Viktor Rozgic, Chao Wang
  • 用于高效音频分类的多尺度音频频谱图Transformer
    • Wentao Zhu, Mohamed Omar
  • 基于Transformer的少样本学习任务生物声学声音事件检测
    • Liwen You, Erika Pelaez Coyotl, Suren Gunturu, Maarten Van Segbroeck
  • 权重共享超网络:在设备限制下搜索专用的声学事件分类网络
    • Guan-Ting Lin, Qingming Tang, Chieh-Chi Kao, Viktor Rozgic, Chao Wang

自动语音识别

  • 基于图的标签传播的跨话语ASR重打分
    • Srinath Tankasala, Long Chen, Andreas Stolcke, Anirudh Raju, Shally Deng, Chander Chandak, Aparna Khare, Roland Maas, Venkatesh Ravichandran
  • 用于统一流式和非流式Conformer ASR的动态分块卷积
    • Xilai Li, Goeric Huybrechts, Srikanth Ronanki, Jeff Farris, Sravan Bodapati
  • 利用外部非策略声学目录进行领域自适应,以实现可扩展的上下文端到端自动语音识别
    • David M. Chan, Shalini Ghosh, Ariya Rastrow, Björn Hoffmeister
  • 门控上下文适配器:用于神经转换器中的选择性上下文偏置
    • Anastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant Strimel, Feng-Ju (Claire) Chang, Ariya Rastrow, Nathan Susanj, Athanasios Mouchtaris
  • 屏蔽偏置:利用内部语言模型估计改进基于CTC的ASR的领域自适应泛化能力
    • Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jason Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff
  • 用于端到端ASR自适应的动态文本检索
    • Bolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko
  • 语音识别神经转换器中稳健的声学和语义上下文偏置
    • Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant Strimel, Ross McGowan, Athanasios Mouchtaris

代码生成

  • 对话式文本到SQL:现状探索与未来挑战
    • Sree Hari Krishnan Parthasarathi, Lu Zeng, Dilek Hakkani-Tür

常识推理

  • CLICKER:基于注意力的跨语言常识知识迁移
    • Ruolin Su, Zhongkai Sun, Sixing Lu, Chengyuan Ma, Chenlei Guo

持续学习

  • 量化持续联邦学习中的灾难性遗忘
    • Christophe Dupuy, Jimit Majmudar, Jixuan Wang, Tanya Roosta, Rahul Gupta, Clement Chung, Jie Ding, Salman Avestimehr

端点检测

  • 利用深度上下文多臂老虎机进行自适应端点检测
    • Do June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He, Venkatesh Ravichandran, Viet Anh Trinh
  • 实现准确实时的语音结束估计
    • Yifeng Fan, Colin Vaz, Di He, Jahn Heymann, Viet Anh Trinh, Zhe Zhang, Venkatesh Ravichandran

关键词唤醒

  • 用于语音识别中高效唤醒词检测的双注意力神经转换器

    • Saumya Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Anastasios Alexandridis, Grant Strimel, Ross McGowan, Ariya Rastrow, Feng-Ju Chang, Athanasios Mouchtaris, Siegfried Kunzmann
  • 用于设备端关键词检测的定点量化感知训练

    • Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano, Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu
  • 用于轻量级Transformer关键词检测的自监督语音表征学习

    • Chenyang Gao, Yue Gu, Francesco Caliva, Yuzong Liu
  • 用于关键词检测的小型可瘦身网络

    • Zuhaib Akhtar, Mohammad Omar Khursheed, Dongsu Du, Yuzong Liu

语言学习

  • 用于发音错误诊断的音素RNN转换器
    • Daniel Zhang, Soumya Saha, Sarah Campbell

机器学习

  • 先剪枝后蒸馏:基于重要性采样的数据集蒸馏
    • Anirudh Sundar, Gokce Keskin, Chander Chandak, I-Fan Chen, Pegah Ghahremani, Shalini Ghosh
  • 偏置项在点积注意力机制中的作用
    • Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tür

自然语言理解

  • 蒸馏-量化-微调:利用大型教师模型实现设备端高效多语言NLU的低占用空间
    • Pegah Kharazmi, Zhewei Zhao, Clement Chung, Samridhi Choudhary
  • 金字塔动态推理:通过早期退出加速推理
    • Ershad Banijamali, Pegah Kharazmi, Sepehr Eghbali, Jixuan Wang, Clement Chung, Samridhi Choudhary

个性化语音识别

  • 对话行为引导的上下文适配器用于个性化语音识别

    • Feng-Ju (Claire) Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai Wei, Grant Strimel, Ross McGowan
  • PROCTER:神经转换器中用于个性化语音识别的发音感知上下文适配器

    • Rahul Pandey, Roger Ren, Qi Luo, Jing Liu, Ariya Rastrow, Ankur Gandhe, Denis Filimonov, Grant Strimel, Andreas Stolcke, Ivan Bulyko
  • 用于神经转换器个性化语音识别的槽触发上下文偏置

    • Sibo Tong, Philip Harding, Simon Wiesler

查询重写

  • KG-ECO:用于查询重写的知识图谱增强实体校正
    • Jason Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen, Yang Liu, Xing Fan, Chenlei Guo

自学习

  • 用于语音识别的联邦弱监督自学习
    • Milind Rao, Gopinath Chennupati, Gautam Tiwari, Anit Kumar Sahu, Anirudh Raju, Ariya Rastrow, Jasha Droppo
  • 通过错误检测、归因和再训练实现自我修复
    • Ansel MacLaughlin, Anna Rumshisky, Rinat Khaziev, Anil Ramakrishna, Yuval Merhav, Rahul Gupta

信号处理

  • 统一实时个性化和非个性化语音增强的框架

    • Zhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis
  • 用于人类活动识别的增强鲁棒自监督学习

    • Cong Xu, Yuhang Li, Dae Lee, Andrew Park, Hongda Mao, Huyen Do, Jonathan Chung, Dinesh Nair
  • 基于生成建模的流形学习,用于自适应滤波指导

    • Karim Helwani, Paris Smaragdis, Michael M. Goodwin
  • SPADE:用于声学解缠结的自监督预训练

    • John Harvill, Jarred Barber, Arun Nair, Ramin Pishehvar

口语理解

  • 使用联合CTC损失和自监督预训练声学编码器的端到端口语理解
    • Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung
  • 探索端到端语音模型中的子群性能
    • Alkis Koudounas, Eliana Pastor, Giuseppe Attanasio, Vittorio Mazzia, Manuel Giollo, Thomas Gueudre, Luca Cagliero, Luca de Alfaro, Elena Baralis, Daniele Amberti
  • 用于超低占用空间应用的多语言端到端口语理解
    • Markus Mueller, Anastasios Alexandridis, Zach Trozenski, Joel Whiteman, Grant Strimel, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann

文本到语音

  • 逐帧WaveGAN:具有极低计算复杂度的时域高速对抗声码器
    • Ahmed Mustafa, Jean-Marc Valin, Jan Buethe, Paris Smaragdis, Mike Goodwin
  • 无需特定口音TTS前端的口音低资源建模
    • Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu

视频

  • ModEFormer:使用Transformer保持模态的音频-视频同步嵌入
    • Akash Gupta, Rohun Tripathi, Wondong Jang
  • 用于视频表示学习的多尺度组合约束
    • Georgios Paraskevopoulos, Chandrashekhar Lavania, Lovish Chum, Shiva Sundaram

语音通信

  • 使用率失真优化变分自编码器进行语音的低比特率冗余编码
    • Jean-Marc Valin, Jan Buethe, Ahmed Mustafa
      更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
      对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 3:09:51

高品质门窗先行品牌生产厂家哪家更具口碑

高品质门窗先行品牌生产厂家哪家更具口碑在建筑装饰领域,门窗作为重要组成部分,其品质直接影响到建筑的整体性能和美观度。消费者在选择门窗时,往往更倾向于口碑良好的生产厂家。那么,高品质门窗先行品牌生产厂家中,哪…

作者头像 李华
网站建设 2026/6/4 22:31:38

如何在服务器部署PyTorch-CUDA环境?这个镜像省下3小时

如何在服务器部署PyTorch-CUDA环境?这个镜像省下3小时 在深度学习项目中,最让人头疼的往往不是模型调参,而是——环境装不上。 你有没有经历过这样的场景:新服务器到手,兴致勃勃准备训练模型,结果 torch.…

作者头像 李华
网站建设 2026/6/10 1:09:08

Git标签管理发布版本:标记重要PyTorch模型节点

Git标签管理发布版本:标记重要PyTorch模型节点 在深度学习项目迭代日益频繁的今天,你是否遇到过这样的场景:团队成员问“上次那个准确率76%的模型代码在哪?”——而你翻遍提交记录也找不到确切位置;或是你在本地能复现…

作者头像 李华
网站建设 2026/6/10 16:59:58

YOLOv11锚框聚类分析:基于PyTorch的数据预处理

YOLOv11锚框聚类分析:基于PyTorch的数据预处理 在工业质检、无人机巡检和智能安防等实际场景中,目标检测模型常常面临一个共性难题——如何准确捕捉尺度差异巨大的物体。比如,在一张输电线路的航拍图里,绝缘子可能只有几十个像素大…

作者头像 李华