-
公开(公告)号:CN113593606B
公开(公告)日:2022-02-15
申请号:CN202111156129.8
申请日:2021-09-30
Applicant: 清华大学
Abstract: 本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R‑GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。
-
公开(公告)号:CN113593606A
公开(公告)日:2021-11-02
申请号:CN202111156129.8
申请日:2021-09-30
Applicant: 清华大学
Abstract: 本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R‑GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。
-
公开(公告)号:CN110379433B
公开(公告)日:2021-10-08
申请号:CN201910711306.0
申请日:2019-08-02
Applicant: 清华大学 , 北京华控智加科技有限公司
Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。
-
公开(公告)号:CN108538285B
公开(公告)日:2021-05-04
申请号:CN201810180347.7
申请日:2018-03-05
Applicant: 清华大学
Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
-
公开(公告)号:CN111539495B
公开(公告)日:2020-11-10
申请号:CN202010659647.0
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开涉及一种基于识别模型的识别方法、模型训练方法及装置。其中,基于识别模型的识别方法包括识别模型包括特征提取模块,特征提取模块包括多个LSTM单元。识别方法包括:获取待识别特征序列,待识别特征序列包括连续的特征;将多个特征依序分别输入至多个LSTM单元,通过每个LSTM单元得到特征对应的第一隐藏状态;基于多个特征,以及多个特征分别对应的第一隐藏状态,以及特征提取模块的前次输出结果,得到特征提取模块的当前输出结果;基于特征提取模块的当前输出结果,得到识别结果。通过本公开,使得特征提取模块的当前输出结果更加合理、准确。
-
公开(公告)号:CN111540382A
公开(公告)日:2020-08-14
申请号:CN202010659644.7
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开是关于一种基于线性预测残差负熵的语音音质度量评价方法及装置、电子设备和计算机可读存储介质。其中方法包括:获取待评价的语音数据;将语音数据划分为多个语音帧;对语音帧进行线性预测分析,得到线性预测残差;计算每个语音帧的线性预测残差负熵;根据负熵评价语音数据的音质。通过利用语音信号的线性预测残差的负熵,可以实现定量的对语音音质的高层特征进行评价,而评价结果也更加接近于主观判断,从而对语音数据库的生产提供质量控制依据。
-
公开(公告)号:CN108510977B
公开(公告)日:2020-05-22
申请号:CN201810235261.X
申请日:2018-03-21
Applicant: 清华大学
IPC: G10L15/00 , G10L15/02 , G10L15/197
Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。
-
公开(公告)号:CN110322871A
公开(公告)日:2019-10-11
申请号:CN201910462959.X
申请日:2019-05-30
Applicant: 清华大学
Inventor: 张卫强
Abstract: 本发明属于语音关键词检索技术领域,尤其涉及一种基于声学表征矢量的样例关键词检索方法,包括:步骤1:采用大量语音数据来训练得到带有瓶颈层的神经网络自编码器;步骤2:将神经网络自编码器的瓶颈层作为输出层来得到声学表征矢量提取器;步骤3:采用声学表征矢量提取器对单样例关键词和多样例关键词来提取关键词模型矢量;步骤4:采用声学表征矢量提取器对测试语言片段来提取测试语言声学表征矢量;步骤5:计算测试语言声学表征矢量与每个关键词模型矢量的距离,如果某距离小于预设门限,则该关键词即为检索的关键词。本发明适用于低资源条件下任意语种的单样例或多样例关键词检索的建模,检索性能高,并且单样例和多样例通用。
-
公开(公告)号:CN104575519B
公开(公告)日:2018-12-25
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN103219008B
公开(公告)日:2016-04-20
申请号:CN201310182450.2
申请日:2013-05-16
Applicant: 清华大学
Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。
-
-
-
-
-
-
-
-
-