news 2026/4/19 0:30:40

上海交通大学破解声音分离与提取的核心难题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
上海交通大学破解声音分离与提取的核心难题

上海交通大学破解声音分离与提取的核心难题



论文标题USE: A Unified Model for Universal Sound Separation and Extraction

作者团队:上海交通大学、南京大学等
发布时间:2025 年 12 月 24 日
论文链接:https://arxiv.org/pdf/2512.21215

Github 地址

大模型实验室 Lab4AI 论文阅读

✨ 研究背景

在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。

而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了 USE 统一模型。该模型由两个核心部分组成:

  • ✔️EDA 吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
  • ✔️多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
  • ✔️ 通过创新的联合训练策略,模型让 AI 能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。

✨ 核心贡献

  • ✔️ 提出 USE:旨在协同结合 SS 和 TSE 任务,以克服各自的局限性。
  • ✔️ 性能提升:在 SS 任务上相比基准模型提升了 1.4dB,目标提取准确率高达 86%。
  • ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
  • ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理 6 个声源,计算量仍低于 30GFLOPS。

这项成果,不仅为自动驾驶(识别警笛声)、视障辅助(环境音解析)等领域提供了技术支撑,更让 AI 在复杂现实世界中的“听力”水平迈上了一个大台阶。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:28:34

恋活游戏增强补丁完全指南:7步解锁完整游戏体验

恋活游戏增强补丁完全指南:7步解锁完整游戏体验 【免费下载链接】KK-HF_Patch Automatically translate, uncensor and update Koikatu! and Koikatsu Party! 项目地址: https://gitcode.com/gh_mirrors/kk/KK-HF_Patch 还在为恋活游戏的语言障碍和功能限制而…

作者头像 李华
网站建设 2026/4/18 8:25:59

企业级应用:DCT-Net在社交平台头像生成中的落地实践

企业级应用:DCT-Net在社交平台头像生成中的落地实践 1. 引言 1.1 业务场景描述 在当前的社交平台生态中,个性化头像已成为用户表达自我、增强身份识别的重要方式。传统的静态头像已难以满足年轻用户对趣味性与独特性的追求。因此,人像卡通…

作者头像 李华
网站建设 2026/4/17 0:38:23

Qwen3-4B-Instruct硬件配置:不同GPU性能对比测试

Qwen3-4B-Instruct硬件配置:不同GPU性能对比测试 1. 简介 Qwen3-4B-Instruct-2507 是阿里云推出的一款高效能、轻量级开源大语言模型,专为高响应速度与低资源消耗场景设计。该模型在通用能力方面实现了显著提升,涵盖指令遵循、逻辑推理、文…

作者头像 李华
网站建设 2026/4/17 22:32:20

YOLO11如何实现高效推理?TensorRT部署教程

YOLO11如何实现高效推理?TensorRT部署教程 YOLO11作为Ultralytics最新推出的实时目标检测模型,凭借其在精度与速度之间的卓越平衡,迅速成为工业界和学术界的关注焦点。相比前代版本,YOLO11在骨干网络、特征融合机制和损失函数设计…

作者头像 李华
网站建设 2026/4/19 15:57:38

VibeThinker-1.5B推理速度提升技巧分享

VibeThinker-1.5B推理速度提升技巧分享 在部署和使用微博开源的小参数模型 VibeThinker-1.5B 的过程中,许多用户发现:虽然其数学与编程推理能力出色,但在实际交互中仍存在响应延迟、生成卡顿等问题。尤其在处理复杂算法推导或多步逻辑链时&a…

作者头像 李华
网站建设 2026/4/18 0:01:13

OCR大模型实战:基于DeepSeek-OCR-WEBUI的高精度文本识别方案

OCR大模型实战:基于DeepSeek-OCR-WEBUI的高精度文本识别方案 1. 引言:从传统OCR到大模型驱动的智能识别 1.1 行业痛点与技术演进 在金融票据处理、物流单据录入、教育资料数字化等场景中,光学字符识别(OCR)一直是自…

作者头像 李华