一种基于统一表征的关键词检索方法

    公开(公告)号:CN110738987B

    公开(公告)日:2022-02-15

    申请号:CN201910992852.6

    申请日:2019-10-18

    Applicant: 清华大学

    Inventor: 张卫强

    Abstract: 本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法,包括:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器;采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器;采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量;通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量;对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离,若小于预设门限即认为命中查询词。

    语种识别系统
    52.
    发明授权

    公开(公告)号:CN108648747B

    公开(公告)日:2020-06-02

    申请号:CN201810234745.2

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,语种识别模块用于获取输入的待测的语音段,在训练库中匹配联合支持矢量,得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。

    语音数据库的质量评估方法、装置及计算机存储介质

    公开(公告)号:CN111008299A

    公开(公告)日:2020-04-14

    申请号:CN202010164556.X

    申请日:2020-03-11

    Abstract: 本发明涉及语音信号处理技术领域,提供一种语音数据库的质量评估方法、装置及计算机存储介质。语音数据库的质量评估方法包括:获取待评估的语音数据库,其中,语音数据库中包括至少一条语音;确定语音数据库中至少涉及一种分类因素,分类因素中包括多个子类因素;基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵;根据单因素信息熵,确定语音数据库的质量。通过本公开提供的语音数据库的质量评估方法,根据检测语音数据库涉及的分类因素,对语音数据库进行质量评估,能够快速得到评估结论,且得到的评估结论更具有客观性,有助于对语音数据库的构建进行调节。

    语种识别系统
    54.
    发明公开

    公开(公告)号:CN108648747A

    公开(公告)日:2018-10-12

    申请号:CN201810234745.2

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,语种识别模块用于获取输入的待测的语音段,在训练库中匹配联合支持矢量,得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。

    韵律事件检测方法和装置
    55.
    发明授权

    公开(公告)号:CN104575518B

    公开(公告)日:2018-10-02

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    一种面向音频事件检测的双层基音特征提取方法

    公开(公告)号:CN106205638A

    公开(公告)日:2016-12-07

    申请号:CN201610430195.2

    申请日:2016-06-16

    Applicant: 清华大学

    Inventor: 王健飞 张卫强

    Abstract: 本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。

    基于噪声屏蔽核的说话人识别方法

    公开(公告)号:CN103714818B

    公开(公告)日:2016-06-22

    申请号:CN201310681894.0

    申请日:2013-12-12

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。

    基于基状态矢量加权的短语音说话人识别方法

    公开(公告)号:CN103219008A

    公开(公告)日:2013-07-24

    申请号:CN201310182450.2

    申请日:2013-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。

    基于语种对的鉴别式语种识别模型建立方法

    公开(公告)号:CN101702314B

    公开(公告)日:2011-11-09

    申请号:CN200910235393.3

    申请日:2009-10-13

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

    用于语种识别的约束异方差线性鉴别分析方法

    公开(公告)号:CN101546555A

    公开(公告)日:2009-09-30

    申请号:CN200910081899.3

    申请日:2009-04-14

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的约束异方差线性鉴别分析方法涉及一种高维特征矢量的降维和去相关处理方法,其特征在于,所述方法首先由语音信号提取MFCC特征,选取连续M帧MFCC特征并列放置得到倒谱矩阵,然后将其按行展开,形成超矢量,再分块计算超矢量的均值和协方差,并用迭代法分块计算变换矩阵,接着用变换矩阵对超矢量分块进行变换,最后将各块进行降维和拼接处理,可得到新的特征矢量。该方法计算量小,得到的特征矢量去除了各维之间的相关性,鉴别性高且维数低。可以用于语种识别。

Patent Agency Ranking