-
公开(公告)号:CN108630192A
公开(公告)日:2018-10-09
申请号:CN201710156620.8
申请日:2017-03-16
Applicant: 清华大学 , 同方鼎欣科技股份有限公司
Abstract: 本发明涉及一种非汉语语音识别方法、系统及其构造方法,非汉语语音识别的构造方法包括:利用汉语特征提取模型从汉语语料库的汉语语音数据中提取语音特征;根据提取的语音特征建立汉语声学模型;对汉语声学模型进行处理,得到的非汉语声学模型;对汉语特征提取模型进行处理,得到非汉语特征提取模型;根据非汉语特征提取模型和非汉语声学模型构建非汉语语音识别系统。本发明利用既有的汉语语音资源及其训练出的模型,以及少量必须的语言数据资源就可以快捷地构造出有效的非汉语语音识别系统,有效的降低了成本和时间开销。
-
公开(公告)号:CN107545898A
公开(公告)日:2018-01-05
申请号:CN201710667697.1
申请日:2017-08-07
Applicant: 清华大学 , 北京孚睿星辰智能科技有限责任公司
Abstract: 本发明实施例提供一种区分说话人语音的处理方法及装置,所述方法包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1
-
公开(公告)号:CN107481713B
公开(公告)日:2020-06-02
申请号:CN201710582572.9
申请日:2017-07-17
Applicant: 清华大学 , 北京孚睿星辰智能科技有限责任公司
Abstract: 本发明公开一种混合语言语音合成方法及装置。其中,所述方法包括:获取待合成文本,并提取所述待合成文本的语言学特征向量;获取特定说话人的语音数据,并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量;将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接,获得所述待合成文本的语音合成输入向量;根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型,获得所述待合成文本的特定说话人的合成语音。所述装置用于执行上述方法。本发明提供的混合语言语音合成方法及装置,能够实现语音合成说话人的快速更改与混合语言语音合成,提高混合语言语音合成的效率。
-
公开(公告)号:CN107481713A
公开(公告)日:2017-12-15
申请号:CN201710582572.9
申请日:2017-07-17
Applicant: 清华大学 , 北京孚睿星辰智能科技有限责任公司
Abstract: 本发明公开一种混合语言语音合成方法及装置。其中,所述方法包括:获取待合成文本,并提取所述待合成文本的语言学特征向量;获取特定说话人的语音数据,并根据所述特定说话人的语音数据提取所述特定说话人的说话人向量;将所述待合成文本的语言学特征向量和所述特定说话人的说话人向量进行拼接,获得所述待合成文本的语音合成输入向量;根据所述待合成文本的语音合成输入向量和预先建立的混合语言语音合成模型,获得所述待合成文本的特定说话人的合成语音。所述装置用于执行上述方法。本发明提供的混合语言语音合成方法及装置,能够实现语音合成说话人的快速更改与混合语言语音合成,提高混合语言语音合成的效率。
-
公开(公告)号:CN107545898B
公开(公告)日:2020-07-14
申请号:CN201710667697.1
申请日:2017-08-07
Applicant: 清华大学 , 北京孚睿星辰智能科技有限责任公司
Abstract: 本发明实施例提供一种区分说话人语音的处理方法及装置,所述方法包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1
-
公开(公告)号:CN108630192B
公开(公告)日:2020-06-26
申请号:CN201710156620.8
申请日:2017-03-16
Applicant: 清华大学 , 同方鼎欣科技股份有限公司
Abstract: 本发明涉及一种非汉语语音识别方法、系统及其构造方法,非汉语语音识别的构造方法包括:利用汉语特征提取模型从汉语语料库的汉语语音数据中提取语音特征;根据提取的语音特征建立汉语声学模型;对汉语声学模型进行处理,得到的非汉语声学模型;对汉语特征提取模型进行处理,得到非汉语特征提取模型;根据非汉语特征提取模型和非汉语声学模型构建非汉语语音识别系统。本发明利用既有的汉语语音资源及其训练出的模型,以及少量必须的语言数据资源就可以快捷地构造出有效的非汉语语音识别系统,有效的降低了成本和时间开销。
-
公开(公告)号:CN106847266B
公开(公告)日:2019-12-13
申请号:CN201611219528.3
申请日:2016-12-26
Applicant: 清华大学
IPC: G10L15/06 , G10L15/08 , G10L15/183 , G10L25/51
Abstract: 本申请提供了一种语音识别的方法和装置,包括:将语言模型表示为有限状态转移机;待识别的新词根据设定规则在所述有限状态转移机获得所述新词对应的近义词;将所述新词添加到所述有限状态转移机,获得更新后的有限状态转移机,使用所述更新后的有限状态转移机进行语音识别,从而解决了目前语音识别中新词快速添加和识别的问题。
-
公开(公告)号:CN105336323B
公开(公告)日:2018-12-28
申请号:CN201510662027.1
申请日:2015-10-14
Applicant: 清华大学
IPC: G10L15/00 , G10L15/06 , G10L15/065 , G10L25/39
Abstract: 本申请提供了一种维语语音识别的方法和装置,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;使用所述最优自适应声学模型进行维语语音的识别,从而解决了维语语料不足和语音识别准确率低的问题。
-
公开(公告)号:CN106847266A
公开(公告)日:2017-06-13
申请号:CN201611219528.3
申请日:2016-12-26
Applicant: 清华大学
IPC: G10L15/06 , G10L15/08 , G10L15/183 , G10L25/51
Abstract: 本申请提供了一种语音识别的方法和装置,包括:将语言模型表示为有限状态转移机;待识别的新词根据设定规则在所述有限状态转移机获得所述新词对应的近义词;将所述新词添加到所述有限状态转移机,获得更新后的有限状态转移机,使用所述更新后的有限状态转移机进行语音识别,从而解决了目前语音识别中新词快速添加和识别的问题。
-
公开(公告)号:CN105336323A
公开(公告)日:2016-02-17
申请号:CN201510662027.1
申请日:2015-10-14
Applicant: 清华大学
IPC: G10L15/00 , G10L15/06 , G10L15/065 , G10L25/39
CPC classification number: G10L15/005 , G10L15/063 , G10L15/065 , G10L25/39
Abstract: 本申请提供了一种维语语音识别的方法和装置,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;使用所述最优自适应声学模型进行维语语音的识别,从而解决了维语语料不足和语音识别准确率低的问题。
-
-
-
-
-
-
-
-
-