-
公开(公告)号:CN111209429A
公开(公告)日:2020-05-29
申请号:CN202010309303.7
申请日:2020-04-20
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
IPC: G06F16/65
Abstract: 本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法,所述方法包括:获取训练数据,所述训练数据为语音;确定语音数据库覆盖性的一个或多个评价因素;基于训练数据是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;确定划分后的每个评价因素对应的聚类算法;通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;根据每个所述评价因素的多个子类,训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库,通过对评价因素的区分,有针对性地抽取不同的特征、选用合适的算法,同时可以利用无监督数据进行模型训练,降低了数据标注所引入的成本。
-
公开(公告)号:CN110379433A
公开(公告)日:2019-10-25
申请号:CN201910711306.0
申请日:2019-08-02
Applicant: 清华大学 , 北京华控智加科技有限公司
Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。
-
公开(公告)号:CN108510977A
公开(公告)日:2018-09-07
申请号:CN201810235261.X
申请日:2018-03-21
Applicant: 清华大学
IPC: G10L15/00 , G10L15/02 , G10L15/197
Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。
-
公开(公告)号:CN103578466B
公开(公告)日:2016-02-10
申请号:CN201310557124.5
申请日:2013-11-11
Applicant: 清华大学
IPC: G10L15/04
Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。
-
公开(公告)号:CN104575519A
公开(公告)日:2015-04-29
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN104575518A
公开(公告)日:2015-04-29
申请号:CN201310487945.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
IPC: G10L25/03
Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。
-
公开(公告)号:CN104376842A
公开(公告)日:2015-02-25
申请号:CN201310349690.7
申请日:2013-08-12
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种神经网络语言模型的训练方法、装置以及语音识别方法,涉及语音识别技术。为解决现有技术在降低神经网络语言模型计算复杂度时,神经网络语言模型识别正确率降低的问题。提供的技术方案包括:在对神经网络语言模型的参数进行训练的过程中,采用输出层的归一化因子对目标代价函数进行修正,获取修正后的目标代价函数;根据修正后的目标代价函数对神经网络语言模型的参数进行更新,获取神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。该方案可以应用在神经网络语音识别过程中。
-
公开(公告)号:CN101894548B
公开(公告)日:2012-07-04
申请号:CN201010207237.9
申请日:2010-06-23
Applicant: 清华大学
Abstract: 本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。
-
公开(公告)号:CN101546555B
公开(公告)日:2011-05-11
申请号:CN200910081899.3
申请日:2009-04-14
Applicant: 清华大学
IPC: G10L15/02
Abstract: 用于语种识别的约束异方差线性鉴别分析方法涉及一种高维特征矢量的降维和去相关处理方法,其特征在于,所述方法首先由语音信号提取MFCC特征,选取连续M帧MFCC特征并列放置得到倒谱矩阵,然后将其按行展开,形成超矢量,再分块计算超矢量的均值和协方差,并用迭代法分块计算变换矩阵,接着用变换矩阵对超矢量分块进行变换,最后将各块进行降维和拼接处理,可得到新的特征矢量。该方法计算量小,得到的特征矢量去除了各维之间的相关性,鉴别性高且维数低。可以用于语种识别。
-
公开(公告)号:CN114067834A
公开(公告)日:2022-02-18
申请号:CN202010752821.6
申请日:2020-07-30
Applicant: 中国移动通信集团有限公司 , 清华大学
Abstract: 本发明实施例提供了一种不良前导音识别方法、装置、存储介质和计算机设备。通过根据获取的多个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音的准确性。
-
-
-
-
-
-
-
-
-