-
公开(公告)号:CN108922516B
公开(公告)日:2020-11-06
申请号:CN201810697966.3
申请日:2018-06-29
Applicant: 北京语言大学
Abstract: 本发明公开了一种检测调域值的方法和装置。其中,该方法包括:采用获取频谱特征和调域值,其中,频谱特征是与音质有关的频谱参数,调域值是话者的调域高度值和/或调域宽度值;根据频谱特征和调域值通过机器学习算法训练预测模型,其中,预测模型是频谱特征和调域值建立的映射关系;输入待检测频谱特征利用预测模型获得待检测调域值,其中,待检测调域值与待检测频谱特征相对应,待检测频谱特征是从话者的待预测语音中截取的方式。本发明解决了现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题。
-
公开(公告)号:CN107610720A
公开(公告)日:2018-01-19
申请号:CN201710895726.X
申请日:2017-09-28
Applicant: 北京语言大学
Abstract: 本发明提供了一种发音偏误检测方法、装置、存储介质及设备,该方法包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。本发明利用CTC方法检测关键帧作为声学界标,不需事先标注声学界标。
-
公开(公告)号:CN104183236B
公开(公告)日:2017-12-26
申请号:CN201410448867.3
申请日:2014-09-04
Applicant: 北京语言大学
Abstract: 本发明提供一种测定感知参数的区分性的方法及系统,所述方法包括:根据实验语音学研究结果确定出需要检测的对立体对,所述的对立体对包括第一对立体、第二对立体;获取预先设定的感知参数集合,所述的感知参数集合由感知参数组成;根据所述的感知参数集合以及所述的对立体对合成所述感知参数的连续统合成语音;根据所述的实验语音学研究结果以及所述的连续统合成语音得到所述感知参数对应的感知曲线;根据所述感知参数对应的感知曲线确定所述感知参数的区分性。可以准确快速的测定出各个感知参数的区分性,为后续针对不同的评测任务结合各个感知参数的区分性进行发音偏误检测提供了依据,且提高了各种发音偏误检测的准确性。
-
公开(公告)号:CN102968921A
公开(公告)日:2013-03-13
申请号:CN201210436374.9
申请日:2012-11-05
Applicant: 北京语言大学
Abstract: 本发明提供一种汉语语音训练系统及汉语语音训练方法,该系统包括;连续统设计模块获取用户根据被试者的感知偏误和已有的汉语语音理论设计出的有针对性的声学连续统;合成语音模块将连续统设计模块设计完的声学连续统转化成合成语音;中国人感知常模模块通过中国人对合成语音进行听辨,获取的对声学连续统的中国人感知常模;音节结构设计模块获取用户找到针对被试者水平的音节结构,设计出的训练顺序;自然语音语料库模块按照音节结构设计模块设计的训练顺序,抽取出所需的自然语音语料;训练模块利用所述自然语音语料和所述中国人感知常模,供被试者进行汉语语音训练。其使留学生能够在短时间内掌握汉语语音间的主要区别,迅速提高听辨正确率。
-
公开(公告)号:CN114023346B
公开(公告)日:2024-05-31
申请号:CN202111285653.5
申请日:2021-11-01
Applicant: 北京语言大学
IPC: G10L21/0208 , G10L25/30
Abstract: 本发明涉及一种可分离循环注意力的语音增强方法,包括步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明计算量小,能够有效保证语音降噪效果。
-
公开(公告)号:CN110517663B
公开(公告)日:2021-09-21
申请号:CN201910708975.2
申请日:2019-08-01
Applicant: 北京语言大学
Abstract: 本发明提供一种语种识别方法及识别系统,能够提高语种识别系统的性能。所述方法包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。本发明涉及语音识别技术领域。
-
公开(公告)号:CN112381913B
公开(公告)日:2021-06-04
申请号:CN202011126965.7
申请日:2020-10-20
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于3D建模与口腔解剖的动态发音教学模型构建方法,包括:根据头颈部解剖模型中的口腔解剖模型,获取各个发音器官的生理结构;根据各个音素的发音属性,得出每个音素发音过程的三维描述;根据训练出的语音教学经验模型设计发音教学流程;结合各个发音器官的生理结构、每个音素发音过程的三维描述、以及发音教学流程制作三维动画互动教学模型。本发明基于三维口腔解剖模型,结合各个音素的发音属性,并运用语音教学经验,使每一个音素的发声方法得以用三维动画模型直观表示,从而达到在线发音教学中3D图示化、直观化的教学反馈,让学习者可以更加准确地捕捉关键发音部位的变化,提高了教学效果。
-
公开(公告)号:CN112381913A
公开(公告)日:2021-02-19
申请号:CN202011126965.7
申请日:2020-10-20
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于3D建模与口腔解剖的动态发音教学模型构建方法,包括:根据头颈部解剖模型中的口腔解剖模型,获取各个发音器官的生理结构;根据各个音素的发音属性,得出每个音素发音过程的三维描述;根据训练出的语音教学经验模型设计发音教学流程;结合各个发音器官的生理结构、每个音素发音过程的三维描述、以及发音教学流程制作三维动画互动教学模型。本发明基于三维口腔解剖模型,结合各个音素的发音属性,并运用语音教学经验,使每一个音素的发声方法得以用三维动画模型直观表示,从而达到在线发音教学中3D图示化、直观化的教学反馈,让学习者可以更加准确地捕捉关键发音部位的变化,提高了教学效果。
-
公开(公告)号:CN107610720B
公开(公告)日:2020-08-04
申请号:CN201710895726.X
申请日:2017-09-28
Applicant: 北京语言大学
Abstract: 本发明提供了一种发音偏误检测方法、装置、存储介质及设备,该方法包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。本发明利用CTC方法检测关键帧作为声学界标,不需事先标注声学界标。
-
公开(公告)号:CN110517663A
公开(公告)日:2019-11-29
申请号:CN201910708975.2
申请日:2019-08-01
Applicant: 北京语言大学
Abstract: 本发明提供一种语种识别方法及识别系统,能够提高语种识别系统的性能。所述方法包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。本发明涉及语音识别技术领域。
-
-
-
-
-
-
-
-
-