一种多人的语音分离方法、装置、电子设备和存储介质

    公开(公告)号:CN112071329A

    公开(公告)日:2020-12-11

    申请号:CN202010972989.8

    申请日:2020-09-16

    Abstract: 本申请涉及人工智能技术领域,尤其涉及机器学习技术领域,提供了一种多人的语音分离方法、装置、电子设备和存储介质,用以提高说话人语音分离的准确性和语音分离效率。其中方法包括:获取待分离的混合波形信号,混合波形信号包含多人的语音;对混合波形信号进行特征提取,获得混合波形信号的编码特征;通过对编码特征进行特征提取,从编码特征中分离出每个人的语音特征;基于每个人的语音特征以及编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得每个人的重建语音信号。本申请提出了一种更为通用、开放和灵活的方法来模拟鸡尾酒会效应,不需要复杂的前处理流程,提高了语音分离的准确性和效率。

    语音识别及模型训练方法、装置和计算机可读存储介质

    公开(公告)号:CN111261146A

    公开(公告)日:2020-06-09

    申请号:CN202010048780.2

    申请日:2020-01-16

    Inventor: 王珺 林永业

    Abstract: 本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。

    信号处理方法及装置、计算机设备以及可读存储介质

    公开(公告)号:CN112289338B

    公开(公告)日:2024-03-12

    申请号:CN202011105225.5

    申请日:2020-10-15

    Inventor: 王珺 林永业

    Abstract: 本申请实施例公开了一种信号处理方法及装置、计算机设备以及可读存储介质,该方法使用人工智能技术处理初始信号得到与短期依赖参数和多头全局依赖参数相关的信号分离特征,然后直接使用该信号分离特征对应的分离参数对初始信号进行分离得到源信号,整个过程不需要基于声音样本处理初始信号,解决了当前语音分离技术需要采集声音样本的技术问题,降低了分离成本;本申请基于人工智能处理初始信号时,在对输入信号的局部结构进行建模以获取短期依赖参数的同时,又利用多头自注意机制捕获全局依赖以获取多头全局依赖参数,进而基于短期依赖参数和多头全局依赖参数输出信号分离特征,提高了对超长序列信号建模的能力。

    语音识别及模型训练方法、装置和计算机可读存储介质

    公开(公告)号:CN111261146B

    公开(公告)日:2022-09-09

    申请号:CN202010048780.2

    申请日:2020-01-16

    Inventor: 王珺 林永业

    Abstract: 本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。

    音频分离的方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN114512141A

    公开(公告)日:2022-05-17

    申请号:CN202210121128.8

    申请日:2022-02-09

    Abstract: 本申请公开了一种音频分离的方法、装置、设备、存储介质和程序产品,属于音频处理领域。所述方法包括:获取采集的音频数据;基于所述音频数据和经过训练的音频分离模型,确定多个子音频数据;基于所述多个子音频数据和经过训练的音频分组模型,确定每个子音频数据对应的分组信息,其中,所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系;基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据。采用本申请,可以提高音频识别的准确度。

    音频分离网络的训练方法、音频分离方法、装置及介质

    公开(公告)号:CN111341341A

    公开(公告)日:2020-06-26

    申请号:CN202010086752.X

    申请日:2020-02-11

    Abstract: 本申请实施例提供了一种音频分离网络的训练方法、音频分离方法、装置及介质;所述方法包括:获取第一分离样本集合,所述第一分离样本集合中至少包括两类具有伪标签的音频;采用扰动数据对所述第一分离样本集合进行插值,得到第一样本集合;采用无监督网络对所述第一样本集合进行分离,得到第二分离样本集合;确定所述第二分离样本集合中第二分离样本的损失;采用所述第二分离样本的损失,对所述无监督网络的网络参数进行调整,以使调整后的无监督网络输出的分离结果的损失满足收敛条件。通过采用第一样本集合作为训练无监督网络的样本,丰富了无监督网络的样本数据,并增强了无监督网络的泛化能力。

    语音分离模型的训练方法、语音分离方法及装置

    公开(公告)号:CN111179962A

    公开(公告)日:2020-05-19

    申请号:CN202010003201.2

    申请日:2020-01-02

    Inventor: 王珺 林永业

    Abstract: 本申请公开了一种语音分离模型的训练方法、语音分离方法、装置、计算机设备及存储介质,属于语音技术领域。通过本申请实施例提供的技术方案,在训练过程中,能够基于学生模型的分离结果的准确性、教师模型和学生模型分离得到的结果之间的一致性,来使得教师模型能够对学生模型的训练起到一种平滑的作用,从而提升训练得到的语音分离模型的分离准确性的同时,还能够保持分离的稳定性,大大提高了训练的语音分离模型的分离能力。

    音频分离的方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN114512141B

    公开(公告)日:2024-09-13

    申请号:CN202210121128.8

    申请日:2022-02-09

    Abstract: 本申请公开了一种音频分离的方法、装置、设备、存储介质和程序产品,属于音频处理领域。所述方法包括:获取采集的音频数据;基于所述音频数据和经过训练的音频分离模型,确定多个子音频数据;基于所述多个子音频数据和经过训练的音频分组模型,确定每个子音频数据对应的分组信息,其中,所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系;基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据。采用本申请,可以提高音频识别的准确度。

    音频信号处理方法、装置、电子设备及存储介质

    公开(公告)号:CN111179961B

    公开(公告)日:2022-10-25

    申请号:CN202010001636.3

    申请日:2020-01-02

    Inventor: 王珺 林永业

    Abstract: 本申请公开了一种音频信号处理方法、装置、电子设备及存储介质,属于信号处理技术领域。本申请通过将混合音频信号输入编码网络,通过编码网络对该混合音频信号进行嵌入处理,得到混合音频信号的嵌入特征,将嵌入特征输入萃取网络,通过萃取网络对嵌入特征进行泛化特征提取,能够提取得到混合音频信号中目标分量的泛化特征,基于该目标分量的泛化特征进行音频信号处理,由于目标分量的泛化特征具有较好的泛化能力和表达能力,能够良好地适用于不同的场景,因此提升了音频信号处理过程的鲁棒性和泛化性,提升了音频信号处理的准确性。

Patent Agency Ranking