-
公开(公告)号:CN106098068B
公开(公告)日:2019-07-16
申请号:CN201610416650.3
申请日:2016-06-12
Applicant: 腾讯科技(深圳)有限公司
CPC classification number: G10L17/08
Abstract: 本发明实施例公开了一种声纹识别方法和装置,其中所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。采用本发明,可有效提高声纹识别准确率。
-
公开(公告)号:CN106057206B
公开(公告)日:2019-05-03
申请号:CN201610388231.3
申请日:2016-06-01
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种声纹模型训练方法、声纹识别方法及装置,属于语音识别领域。所述方法包括:获取未知用户朗读第二字符串所产生的测试语音信号,第二字符串包括按序排列的若干字符;从测试语音信号中提取出各个字符所对应的声纹特征序列;根据目标用户的与n种基础字符分别对应的n个GMM,构建与第二字符串对应的HMM;计算声纹特征序列与HMM的相似度分数;当相似度分数大于预设阈值时,将未知用户识别目标用户。在本发明中,目标用户的与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性,且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性,能够极大地提高识别准确率。
-
公开(公告)号:CN105976812B
公开(公告)日:2019-04-26
申请号:CN201610272292.3
申请日:2016-04-28
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开一种语音识别方法及其设备,其中方法包括如下步骤:获取基于交互应用所输入的目标音频数据;提取所述目标音频数据中的目标Filter bank特征;将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征;创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。采用本发明,可以满足各种实际应用环境以及发音习惯的语音识别,提升语音识别的准确性。
-
公开(公告)号:CN106356052B
公开(公告)日:2019-03-15
申请号:CN201610901099.1
申请日:2016-10-17
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L13/047 , G10L13/08
Abstract: 本发明公开了一种语音合成方法及装置,属于语音合成技术领域。所述方法包括:获取测试语音信息;从测试语音信息中提取具有第一标注类型的测试语音片段;根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;根据平均差异矩阵,生成具有目标拼接权值的拼接代价模型;通过具有目标拼接权值的拼接代价模型进行语音合成,得到合成的语音信息。本发明通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型,避免了需要多次手工调整拼接代价模型中的权值,且最终得到的权值仍然不够准确的情况,从而达到了减少手工调整次数,直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。
-
公开(公告)号:CN106297807B
公开(公告)日:2019-03-01
申请号:CN201610639606.9
申请日:2016-08-05
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种训练声纹识别系统的方法和装置,属于声纹识别技术领域。该方法包括:确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别;建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和;确定出使各个类别的第一数值的总和最大化的规整矩阵;利用确定出的规整矩阵规整声纹识别系统中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
-
公开(公告)号:CN107274905A
公开(公告)日:2017-10-20
申请号:CN201610218436.7
申请日:2016-04-08
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了声纹识别方法,包括:分别训练N个身份因子I-Vector矩阵,得到N个I-Vector矩阵;N为大于1的自然数;根据N个I-Vector矩阵,从测试样本中分别提取中N个对应的I-Vector向量;根据N个对应的I-Vector分别计算得分,得出N个对应的分数;将N个对应的分数进行融合,得到目标分数,并根据目标分数进行判决。采用本发明,能够实现在海量训练数据前提下,突破现有技术中单一I-Vector框架声纹识别性能瓶颈的技术问题,经测试表明,通过两个以上经过足量数据训练的I-Vector框架相对于单一I-Vector框架系统整体性能均能提升20%~30%左右。
-
公开(公告)号:CN106128466B
公开(公告)日:2019-07-05
申请号:CN201610560347.0
申请日:2016-07-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明涉及一种身份向量处理方法和装置,所述方法包括:获取样本集合,所述样本集合包括多个说话人类别的身份向量的样本;获取所述样本集合中每个样本所对应的类间近邻样本;获取所述样本集合中每个样本所对应的类内近邻样本;根据所述样本集合中各样本和相应类间近邻样本确定类间差异量;根据所述样本集合中各样本和相应类内近邻样本确定类内差异量;获取基向量组,所述类间差异量投影到所述基向量组中各基向量的值最大化,且所述类内差异量投影到所述基向量组中各基向量的值最小化;根据所述基向量组对待处理的身份向量进行特征变换。本发明提供的身份向量处理方法和装置,经过特征变换后的身份向量具有很好的类间区分性和类内聚集性。
-
公开(公告)号:CN106128466A
公开(公告)日:2016-11-16
申请号:CN201610560347.0
申请日:2016-07-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明涉及一种身份向量处理方法和装置,所述方法包括:获取样本集合,所述样本集合包括多个说话人类别的身份向量的样本;获取所述样本集合中每个样本所对应的类间近邻样本;获取所述样本集合中每个样本所对应的类内近邻样本;根据所述样本集合中各样本和相应类间近邻样本确定类间差异量;根据所述样本集合中各样本和相应类内近邻样本确定类内差异量;获取基向量组,所述类间差异量投影到所述基向量组中各基向量的值最大化,且所述类内差异量投影到所述基向量组中各基向量的值最小化;根据所述基向量组对待处理的身份向量进行特征变换。本发明提供的身份向量处理方法和装置,经过特征变换后的身份向量具有很好的类间区分性和类内聚集性。
-
公开(公告)号:CN106098068A
公开(公告)日:2016-11-09
申请号:CN201610416650.3
申请日:2016-06-12
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了一种声纹识别方法和装置,其中所述方法包括:获取验证用户朗读第一字符串所产生的验证语音信息;对所述验证语音信息进行语音识别得到所述验证语音信息中包含的分别与所述第一字符串中的多个字符对应的语音片段;提取各个字符对应的语音片段的声纹特征;根据所述各个字符对应的语音片段的声纹特征,结合预设的相应字符对应的通用背景模型训练得到验证语音信息中各个字符对应的特征向量;计算验证语音信息中各个字符对应的特征向量与预设的注册语音信息中相应字符对应的特征向量的相似度分数,若所述相似度分数达到预设验证门限,则将所述验证用户确定为所述注册语音信息对应的注册用户。采用本发明,可有效提高声纹识别准确率。
-
公开(公告)号:CN105976812A
公开(公告)日:2016-09-28
申请号:CN201610272292.3
申请日:2016-04-28
Applicant: 腾讯科技(深圳)有限公司
CPC classification number: G10L15/144 , G10L15/16
Abstract: 本发明实施例公开一种语音识别方法及其设备,其中方法包括如下步骤:获取基于交互应用所输入的目标音频数据;提取所述目标音频数据中的目标Filter bank特征;将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征;创建与所述目标音频数据相关联的音素解码网络,并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。采用本发明,可以满足各种实际应用环境以及发音习惯的语音识别,提升语音识别的准确性。
-
-
-
-
-
-
-
-
-