语音关键词的识别方法和装置

    公开(公告)号:CN108305617A

    公开(公告)日:2018-07-20

    申请号:CN201810096472.X

    申请日:2018-01-31

    Inventor: 王珺 苏丹 俞栋

    Abstract: 本申请涉及一种语音关键词的识别方法、装置、存储介质及计算机设备,方法包括:基于待识别语音信号获得各第一语音片段;基于预置第一分类模型获得与各第一语音片段分别对应的各第一概率,第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率;基于待识别语音信号获得各第二语音片段,基于与各第二语音片段对应的各第一语音片段所对应的第一概率生成各第二语音片段的第一预测特征,并将其输入预置第二分类模型,获得与各第二语音片段分别对应的各第二概率,第二概率包括该第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率;基于第二概率确定待识别语音信号中是否存在预定关键词。本申请的方案能提高普适性。

    一种语音关键词识别方法、装置、终端及服务器

    公开(公告)号:CN107230475A

    公开(公告)日:2017-10-03

    申请号:CN201710391388.6

    申请日:2017-05-27

    Abstract: 本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。

    位置信息的共享方法和装置

    公开(公告)号:CN104811423A

    公开(公告)日:2015-07-29

    申请号:CN201410036818.9

    申请日:2014-01-24

    CPC classification number: H04W4/02 H04W4/029 H04W76/10

    Abstract: 本发明公开了一种位置信息的共享方法和装置。其中,该方法包括:第一终端接收第二终端的当前位置信息;第一终端在第一终端的位置显示区域上将使用第二终端的在先位置信息标记的第二终端的在先位置更新为使用当前位置信息标记的第二终端的当前位置,其中,在先位置信息是第一终端在接收到当前位置信息之前接收到的。本发明解决了现有技术中无法共享终端动态变化的位置信息的技术问题,达到了实时共享终端的动态位置信息的技术效果。

    伴随音频生成方法、相关装置和介质

    公开(公告)号:CN118737121B

    公开(公告)日:2024-11-12

    申请号:CN202411217392.7

    申请日:2024-09-02

    Inventor: 王珺 黄祉琪

    Abstract: 本公开提供一种伴随音频生成方法、相关装置和介质,方法包括:提取目标视频的视觉特征,并获取目标视频的目标声音事件语义特征;将视觉特征输入到扩散模型,扩散模型包括用于根据视觉特征对待扩散音频特征进行扩散处理的编码层;基于目标声音事件语义特征生成与编码层对应的第一调整特征,并基于第一调整特征调整编码层的第一输出,得到第二输出,并基于第二输出生成目标视频的伴随音频,以使伴随音频中包含与目标声音事件语义特征对应的音频片段。本公开能够使得基于视频所生成的音频中包含与视频中所有声音事件对应的音频片段,从而生成与视频在语义上能准确对齐的音频。本公开能应用于自动配音、文生视频配音等场景。

    信号处理方法及装置、计算机设备以及可读存储介质

    公开(公告)号:CN112289338B

    公开(公告)日:2024-03-12

    申请号:CN202011105225.5

    申请日:2020-10-15

    Inventor: 王珺 林永业

    Abstract: 本申请实施例公开了一种信号处理方法及装置、计算机设备以及可读存储介质,该方法使用人工智能技术处理初始信号得到与短期依赖参数和多头全局依赖参数相关的信号分离特征,然后直接使用该信号分离特征对应的分离参数对初始信号进行分离得到源信号,整个过程不需要基于声音样本处理初始信号,解决了当前语音分离技术需要采集声音样本的技术问题,降低了分离成本;本申请基于人工智能处理初始信号时,在对输入信号的局部结构进行建模以获取短期依赖参数的同时,又利用多头自注意机制捕获全局依赖以获取多头全局依赖参数,进而基于短期依赖参数和多头全局依赖参数输出信号分离特征,提高了对超长序列信号建模的能力。

    语音识别及模型训练方法、装置和计算机可读存储介质

    公开(公告)号:CN111261146B

    公开(公告)日:2022-09-09

    申请号:CN202010048780.2

    申请日:2020-01-16

    Inventor: 王珺 林永业

    Abstract: 本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。

    一种语音识别模型训练方法及装置

    公开(公告)号:CN110364144B

    公开(公告)日:2022-09-02

    申请号:CN201910757056.4

    申请日:2018-10-25

    Inventor: 王珺 苏丹 俞栋

    Abstract: 本发明涉及计算机技术领域,主要涉及人工智能中语音技术、自然语言处理技术、机器学习,尤其涉及一种语音识别模型训练方法及装置,该方法包括,获取语音样本集,所述语音样本集为以下任意一种或组合:受干扰目标词语音的正负样本集、受干扰命令语音样本集,训练目标语音提取模块和训练目标词判断模块,可以通过同时优化识别目标词语音的准确性和目标语音的锚提取特征的准确性,从而可以根据目标词语音的特征,提高识别目标词语音特征对应的目标语音的准确性。

    一种语音识别方法及装置
    88.
    发明授权

    公开(公告)号:CN110288979B

    公开(公告)日:2022-07-05

    申请号:CN201910757110.5

    申请日:2018-10-25

    Inventor: 王珺 苏丹 俞栋

    Abstract: 本发明涉及计算机技术领域,主要涉及人工智能中语音技术、自然语言处理技术、机器学习,尤其涉及一种语音识别方法及装置,该方法包括,获取混合语音,并根据混合语音的各嵌入向量和预设锚提取特征,确定目标词标注信息,进而获得目标语音的锚提取特征,并获得各嵌入向量对应的规整嵌入向量,根据各规整嵌入向量和预设规整锚提取特征,获得目标语音的掩码,根据目标语音的掩码,识别目标语音,并可以输入到目标词判断模块进行判断预测和调整,可以提高语音识别准确性。

    音频分离的方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN114512141A

    公开(公告)日:2022-05-17

    申请号:CN202210121128.8

    申请日:2022-02-09

    Abstract: 本申请公开了一种音频分离的方法、装置、设备、存储介质和程序产品,属于音频处理领域。所述方法包括:获取采集的音频数据;基于所述音频数据和经过训练的音频分离模型,确定多个子音频数据;基于所述多个子音频数据和经过训练的音频分组模型,确定每个子音频数据对应的分组信息,其中,所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系;基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据。采用本申请,可以提高音频识别的准确度。

    音频识别方法、系统、机器设备和计算机可读介质

    公开(公告)号:CN110517666B

    公开(公告)日:2021-03-02

    申请号:CN201910741370.3

    申请日:2019-01-29

    Abstract: 本申请揭示了一种实现音频识别的神经网络训练方法、系统、机器设备和计算机可读介质,涉及机器学习领域。所述方法包括:通过神经网络抽取音频数据流中每个时间帧的音频数据的深度特征;获取给定标注所属类别对应的中心向量;根据深度特征和中心向量对音频数据进行设定损失函数中自身相对给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合,获得音频数据相对给定标注的损失函数值;通过融合相对于标注数据中一系列给定标注的损失函数值,进行神经网络中的参数更新。本申请基于所融合得到的损失函数值进行神经网络的训练,综合音频数据流相对给定标注的类间混淆度衡量指数以及相对中心向量之间距离度量的惩罚来提高音频识别的鲁棒性。

Patent Agency Ranking