基于声纹特征与生成对抗学习的多说话人语音分离方法

    公开(公告)号:CN111128197A

    公开(公告)日:2020-05-08

    申请号:CN201911356481.9

    申请日:2019-12-25

    Inventor: 明悦 傅豪

    Abstract: 本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。

    基于声纹特征与生成对抗学习的多说话人语音分离方法

    公开(公告)号:CN111128197B

    公开(公告)日:2022-05-13

    申请号:CN201911356481.9

    申请日:2019-12-25

    Inventor: 明悦 傅豪

    Abstract: 本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。

Patent Agency Ranking