Patent search ap:("厦门大学") AND inv:"许文婕" Page 1

1.

发明公开
基于多尺度的多模态时域语音分离方法审中-实审

公开(公告)号：CN115881156A

公开(公告)日：2023-03-31

申请号：CN202211580703.7

申请日：2022-12-09

Applicant: 厦门大学

Inventor： 许文婕 , 杨晨晖

IPC: G10L21/0272 , G10L17/02 , G10L17/04 , G10L15/25 , G10L19/02 , G10L19/04

Abstract: 基于多尺度的多模态时域语音分离方法，涉及人工智能、音频信号处理、计算机视觉领域，旨在为混合音频分离与增强提供分析和帮助。包括步骤：S1、混合音频生成、唇部图像序列提取等数据预处理；S2、音频信号特征编码；S3、唇部区域特征编码与唇部动作特征计算；S4、说话人特征、唇部动作特征的多尺度特征提取；S5、唇部动作与语音间的细节映射学习；S6、音频、唇部图像序列、唇部动作、说话人等相关特征的融合学习与音频权值矩阵生成；S7、将步骤S4～S6视为语音分离模块，重复步骤S4～S6；S8、依据权值矩阵分离混合音频并解码得到音频信号。实现不依赖于说话人的多模态数据的端到端盲声源语音分离。

Patent Agency Ranking