语音生成方法、装置、电子设备及存储介质

    公开(公告)号:CN119229842B

    公开(公告)日:2025-03-04

    申请号:CN202411747099.1

    申请日:2024-12-02

    Inventor: 王珺

    Abstract: 本公开实施例公开了一种语音生成方法、装置、电子设备及存储介质,通过获取用于在语音生成时进行内容约束的待合成内容,提取待合成内容的内容嵌入;获取用于在语音生成时进行风格约束的风格提示语音,提取风格提示语音中的多个原始语音标记;将内容嵌入、以及多个原始语音标记输入至第一大语言模型进行预测,得到多个目标语音标记;获取用于在语音生成时进行音色约束的音色提示语音,提取音色提示语音的第一说话对象嵌入;基于第一说话对象嵌入以及多个目标语音标记进行语音生成,得到目标语音,从而能够提升生成的目标语音的真实性和灵活性,可广泛应用于云技术、人工智能、智慧交通等场景。

    图像分类模型的协同训练方法、图像分类方法及相关装置

    公开(公告)号:CN119418104A

    公开(公告)日:2025-02-11

    申请号:CN202411458199.2

    申请日:2024-10-17

    Abstract: 本申请的实施例揭示了图像分类模型的协同训练方法、图像分类方法及相关装置。该训练方法包括:将图像样本划分为多个图像块;基于第一图像分类模型对多个图像块提取图像全局特征,并基于图像全局特征预测图像级类别标签,以获取第一图像分类模型在图像分类过程中产生的图像块分类预测信息;基于第二图像分类模型对各个图像块进行分类预测,并基于分类预测得到的块级类别标签确定图像级类别标签,以获取第二图像分类模型在图像分类过程中所产生的图像块分类预测信息;根据第一图像分类模型和第二图像分类模型分别产生的图像块分类预测信息计算协同训练损失值,以基于协同训练损失值对各个模型进行参数更新。本申请的实施例能够提升图像分类准确性。

    伴随音频生成方法、相关装置和介质

    公开(公告)号:CN118737121A

    公开(公告)日:2024-10-01

    申请号:CN202411217392.7

    申请日:2024-09-02

    Inventor: 王珺 黄祉琪

    Abstract: 本公开提供一种伴随音频生成方法、相关装置和介质,方法包括:提取目标视频的视觉特征,并获取目标视频的目标声音事件语义特征;将视觉特征输入到扩散模型,扩散模型包括用于根据视觉特征对待扩散音频特征进行扩散处理的编码层;基于目标声音事件语义特征生成与编码层对应的第一调整特征,并基于第一调整特征调整编码层的第一输出,得到第二输出,并基于第二输出生成目标视频的伴随音频,以使伴随音频中包含与目标声音事件语义特征对应的音频片段。本公开能够使得基于视频所生成的音频中包含与视频中所有声音事件对应的音频片段,从而生成与视频在语义上能准确对齐的音频。本公开能应用于自动配音、文生视频配音等场景。

    用于多通道音频信号的处理方法及装置

    公开(公告)号:CN114283832B

    公开(公告)日:2024-08-09

    申请号:CN202111058595.2

    申请日:2021-09-09

    Inventor: 罗艺 王珺 林永业

    Abstract: 本公开的实施例提供了一种用于多通道音频信号的处理方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法基于多通道音频信号的时域特征实现对信号源的音频信号波束成形,波束成形处理过程不涉及任何复数域操作,可以直接应用于任何现有的神经网络波束成形框架中,并且由于本公开的实施例的方法引入了更多的自由度,波束成形的理论上限性能得以显著提升。此外,通过在级联神经网络波束成形框架中利用本公开的波束成形方法作为频域波束成形方法的替代,显著提升了系统的音频处理性能。

    语音编码器的训练方法、装置、设备、介质及程序产品

    公开(公告)号:CN117219101A

    公开(公告)日:2023-12-12

    申请号:CN202311205529.2

    申请日:2023-09-15

    Inventor: 王珺

    Abstract: 本申请公开了一种语音编码器的训练方法、装置、设备、介质及程序产品,涉及人工智能领域。该方法包括:对第一文本特征表示中在第一特征位置的第一子特征表示进行掩码处理,得到第一掩码特征表示;基于第一语音特征表示对第一掩码特征表示中被掩码处理的第一特征位置进行特征预测,得到第一预测特征表示;基于第一预测特征表示和第一子特征表示之间的差异对第一语音编码器进行训练,得到第二语音编码器。通过联合语音模态和文本模态的数据对第一语音编码器进行训练,利用文本模态数据中涵盖的信息使得第一语音编码器能够学习到语音的较高层语义表征,从而提高第一语音编码器编码得到的表征在较高语义级别的下游任务上的预测准确率。

    波形特征提取方法、装置、计算机设备及存储介质

    公开(公告)号:CN113763931B

    公开(公告)日:2023-06-16

    申请号:CN202110496090.8

    申请日:2021-05-07

    Inventor: 林永业 王珺

    Abstract: 本申请实施例公开了一种波形特征提取方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:按照多个尺度分别对语音波形进行分割,得到多个尺度对应的波形序列,分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到每个尺度对应的第一特征序列,分别将每个尺度对应的第一特征序列中的多个波形特征进行融合,得到每个尺度对应的第二特征序列,将多个尺度对应的第二特征序列进行拼接,得到语音波形对应的波形特征信息,按照多个尺度对语音波形进行分割成多个波形片段,并对每个尺度对应的波形片段的波形特征进行增强处理,以提高每个波形特征的准确性,将每个尺度对应的波形特征进行拼接,提高了波形特征信息的准确性。

    一种音频数据处理方法、设备以及计算机可读存储介质

    公开(公告)号:CN112071330B

    公开(公告)日:2022-09-20

    申请号:CN202010975371.7

    申请日:2020-09-16

    Inventor: 王珺

    Abstract: 本申请实施例公开一种音频数据处理方法、设备以及计算机可读存储介质,本方法可以应用到包括智能语音等人工智能项目和产品中,其中,方法包括:获取声源混合音频数据,基于通用分离组件对声源混合音频数据进行声源分离预处理,得到通用分离音频特征;将通用分离音频特征分别输入至第一注意力网络层以及第二注意力网络层;在第一注意力网络层中,根据目标分离音频特征以及通用分离音频特征,生成上下文目标音频特征,将上下文目标音频特征输入至第二注意力网络层;在第二注意力网络层中,根据上下文目标音频特征以及通用分离音频特征,生成分离优化音频特征;根据分离优化音频特征,生成重构声源音频。采用本申请,可以提高重构声源音频的准确率。

    一种多人的语音分离方法、装置、电子设备和存储介质

    公开(公告)号:CN112071329B

    公开(公告)日:2022-09-16

    申请号:CN202010972989.8

    申请日:2020-09-16

    Abstract: 本申请涉及人工智能技术领域,尤其涉及机器学习技术领域,提供了一种多人的语音分离方法、装置、电子设备和存储介质,用以提高说话人语音分离的准确性和语音分离效率。其中方法包括:获取待分离的混合波形信号,混合波形信号包含多人的语音;对混合波形信号进行特征提取,获得混合波形信号的编码特征;通过对编码特征进行特征提取,从编码特征中分离出每个人的语音特征;基于每个人的语音特征以及编码特征之间的关系,对每个人的语音特征进行调整,并对调整后的语音特征进行信号重建,获得每个人的重建语音信号。本申请提出了一种更为通用、开放和灵活的方法来模拟鸡尾酒会效应,不需要复杂的前处理流程,提高了语音分离的准确性和效率。

    混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

    公开(公告)号:CN110797021B

    公开(公告)日:2022-06-07

    申请号:CN201910745788.1

    申请日:2018-05-24

    Abstract: 本申请提供了一种混合语音识别网络训练方法,包括:通过混合语音识别网络中的深度神经网络获取适应语音样本和混合语音样本;通过深度神经网络确定与适应语音样本对应的适应语音样本的向量;通过混合语音识别网络对适应语音样本的向量和相应的有监督标注进行处理,形成目标对象在向量空间的语音提取子;通过混合语音识别网络,利用混合语音样本的向量和语音提取子确定目标对象的掩码;通过目标对象的掩码与目标对象的参考语音,对混合语音识别网络的参数进行更新。本发明还提供了一种混合语音识别方法、混合语音识别装置及计算机可读存储介质。本申请技术方案可从混合语音中确定出目标对象的语音,方便对混合语音中目标对象的语音进行追踪。

Patent Agency Ranking