基于多尺度的多模态时域语音分离方法

    公开(公告)号:CN115881156A

    公开(公告)日:2023-03-31

    申请号:CN202211580703.7

    申请日:2022-12-09

    Applicant: 厦门大学

    Inventor: 许文婕 杨晨晖

    Abstract: 基于多尺度的多模态时域语音分离方法,涉及人工智能、音频信号处理、计算机视觉领域,旨在为混合音频分离与增强提供分析和帮助。包括步骤:S1、混合音频生成、唇部图像序列提取等数据预处理;S2、音频信号特征编码;S3、唇部区域特征编码与唇部动作特征计算;S4、说话人特征、唇部动作特征的多尺度特征提取;S5、唇部动作与语音间的细节映射学习;S6、音频、唇部图像序列、唇部动作、说话人等相关特征的融合学习与音频权值矩阵生成;S7、将步骤S4~S6视为语音分离模块,重复步骤S4~S6;S8、依据权值矩阵分离混合音频并解码得到音频信号。实现不依赖于说话人的多模态数据的端到端盲声源语音分离。

Patent Agency Ranking