-
公开(公告)号:CN108053821B
公开(公告)日:2022-09-06
申请号:CN201711316756.7
申请日:2017-12-12
Applicant: 腾讯科技(深圳)有限公司 , 腾讯云计算(北京)有限责任公司
Abstract: 本发明实施例公开了一种生成音频数据的方法和装置,属于文语转换领域。所述方法包括:将目标文本转换为多个声学特征单元;基于每个声学特征单元,生成所述每个声学特征单元对应的音频数据单元;复用目标内存区域,根据所述目标文本的多个音频数据单元,生成多个子音频数据,其中,每次在所述目标内存区域中写入预设数目的音频数据单元以得到子音频数据;每生成一个子音频数据,将所述子音频数据写入存储器;对所述存储器中所写入的多个子音频数据进行合并,得到所述目标文本对应的目标音频数据。采用本发明,可以减少内存占用量。
-
公开(公告)号:CN105869645B
公开(公告)日:2019-04-12
申请号:CN201610178300.8
申请日:2016-03-25
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L17/08 , G10L21/0272
Abstract: 本发明公开了一种语音数据处理方法和装置。该方法包括:获取多个语音样本中每个语音样本的I‑Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I‑Vector向量与目标剩余语音样本的I‑Vector向量之间的余弦距离,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,目标语音样本的I‑Vector向量与目标种子样本的I‑Vector向量之间的余弦距离高于第一预定阈值。本发明解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
-
公开(公告)号:CN106169295B
公开(公告)日:2019-03-01
申请号:CN201610560366.3
申请日:2016-07-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明涉及一种身份向量生成方法和装置,该方法包括:获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;根据统计得到的所述统计量和所述参考统计量确定修正统计量;根据所述修正统计量生成身份向量。本发明提供的身份向量生成方法和装置,提高身份向量的身份识别性能。
-
公开(公告)号:CN106057206A
公开(公告)日:2016-10-26
申请号:CN201610388231.3
申请日:2016-06-01
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种声纹模型训练方法、声纹识别方法及装置,属于语音识别领域。所述方法包括:获取未知用户朗读第二字符串所产生的测试语音信号,第二字符串包括按序排列的若干字符;从测试语音信号中提取出各个字符所对应的声纹特征序列;根据目标用户的与n种基础字符分别对应的n个GMM,构建与第二字符串对应的HMM;计算声纹特征序列与HMM的相似度分数;当相似度分数大于预设阈值时,将未知用户识别目标用户。在本发明中,目标用户的与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性,且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性,能够极大地提高识别准确率。
-
公开(公告)号:CN105869645A
公开(公告)日:2016-08-17
申请号:CN201610178300.8
申请日:2016-03-25
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L17/08 , G10L21/0272
CPC classification number: G10L17/08 , G10L17/04 , G10L17/20 , G10L25/21 , G10L21/0272
Abstract: 本发明公开了一种语音数据处理方法和装置。该方法包括:获取多个语音样本中每个语音样本的I?Vector向量,并确定多个语音样本中的目标种子样本;分别计算目标种子样本的I?Vector向量与目标剩余语音样本的I?Vector向量之间的余弦距离,目标剩余语音样本为多个语音样本中除目标种子样本之外的语音样本;至少按照余弦距离从多个语音样本或目标剩余语音样本中过滤得到目标语音样本,目标语音样本的I?Vector向量与目标种子样本的I?Vector向量之间的余弦距离高于第一预定阈值。本发明解决了相关技术无法采用人工标注方法对语音数据进行清洗导致语音数据清洗效率低的技术问题。
-
公开(公告)号:CN107274905B
公开(公告)日:2019-09-27
申请号:CN201610218436.7
申请日:2016-04-08
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了声纹识别方法,包括:分别训练N个身份因子I‑Vector矩阵,得到N个I‑Vector矩阵;N为大于1的自然数;根据N个I‑Vector矩阵,从测试样本中分别提取中N个对应的I‑Vector向量;根据N个对应的I‑Vector分别计算得分,得出N个对应的分数;将N个对应的分数进行融合,得到目标分数,并根据目标分数进行判决。采用本发明,能够实现在海量训练数据前提下,突破现有技术中单一I‑Vector框架声纹识别性能瓶颈的技术问题,经测试表明,通过两个以上经过足量数据训练的I‑Vector框架相对于单一I‑Vector框架系统整体性能均能提升20%~30%左右。
-
公开(公告)号:CN105869624B
公开(公告)日:2019-05-10
申请号:CN201610188168.9
申请日:2016-03-29
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种数字语音识别中语音解码网络的构建方法及装置,所述方法包括:获取进行数字语音录制所得到的训练数据,所述训练数据包括若干语音段;进行所述训练数据中的声学特征提取,得到每一语音段对应的特征序列;根据所述特征序列和训练数据中数字对应的音素,进行以单音素声学模型为起始的渐进训练得到声学模型;获取语言模型,通过所述语言模型和训练得到的声学模型构建语音解码网络,所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。本发明的数字语音识别中语音解码网络的构建方法及装置能够有效地提高数字语音的识别准确率。
-
公开(公告)号:CN106297807A
公开(公告)日:2017-01-04
申请号:CN201610639606.9
申请日:2016-08-05
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明公开了一种训练声纹识别系统的方法和装置,属于声纹识别技术领域。该方法包括:确定出语音训练集合中每段语音的身份向量,将确定出的身份向量中同一用户的语音的身份向量划分为一个类别;建立用于计算与每一类别对应的第一数值的第一函数,第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和;确定出使各个类别的第一数值的总和最大化的规整矩阵;利用确定出的规整矩阵规整声纹识别系统中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题,提高了声纹识别的准确率。
-
公开(公告)号:CN106169295A
公开(公告)日:2016-11-30
申请号:CN201610560366.3
申请日:2016-07-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明涉及一种身份向量生成方法和装置,该方法包括:获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;根据统计得到的所述统计量和所述参考统计量确定修正统计量;根据所述修正统计量生成身份向量。本发明提供的身份向量生成方法和装置,提高身份向量的身份识别性能。
-
公开(公告)号:CN105869624A
公开(公告)日:2016-08-17
申请号:CN201610188168.9
申请日:2016-03-29
Applicant: 腾讯科技(深圳)有限公司
CPC classification number: G10L15/063 , G10L15/02 , G10L15/04 , G10L15/142 , G10L15/144 , G10L15/187 , G10L25/24 , G10L25/90 , G10L2015/025 , G10L2015/0631
Abstract: 本发明公开了一种数字语音识别中语音解码网络的构建方法及装置,所述方法包括:获取进行数字语音录制所得到的训练数据,所述训练数据包括若干语音段;进行所述训练数据中的声学特征提取,得到每一语音段对应的特征序列;根据所述特征序列和训练数据中数字对应的音素,进行以单音素声学模型为起始的渐进训练得到声学模型;获取语言模型,通过所述语言模型和训练得到的声学模型构建语音解码网络,所述语言模型是通过对所述训练数据中数字的匹配关系建模得到的。本发明的数字语音识别中语音解码网络的构建方法及装置能够有效地提高数字语音的识别准确率。
-
-
-
-
-
-
-
-
-