一种利用发音属性和参考文本的发音偏误检测方法及装置

    公开(公告)号:CN114999526B

    公开(公告)日:2023-03-21

    申请号:CN202210466983.2

    申请日:2022-04-29

    Inventor: 解焱陆 陈琪

    Abstract: 本发明公开了一种利用发音属性和参考文本的发音偏误检测方法及装置,所述方法包括:提取二语学习者语音帧的发音属性,得到第一发音属性序列;将参考文本中的标准音素序列映射到发音属性,得到第二发音属性序列;采用逐块注意力机制,将第一发音属性序列和第二发音属性序列进行分块对齐;对齐后提取音素向量,并与声学特征和发音特征拼接后作为检测模型的输入,进行发音偏误检测。本发明在发音偏误检测任务中加入参考文本信息,采用逐块注意力机制,利用发音属性作为约束条件将参考文本和二语学习者的语音分块对齐,利用参考文本中有效信息的同时避免了引入误导性信息和造成对误发音的错误接受,提升了系统音素识别能力和发音偏误检测能力。

    一种基于发音属性的发音人国别识别模型建模方法及系统

    公开(公告)号:CN110428803B

    公开(公告)日:2020-04-28

    申请号:CN201910662424.7

    申请日:2019-07-22

    Abstract: 本发明提供一种基于发音属性的发音人国别识别模型建模方法及系统,包括:将汉语音段划分成多种发音属性类别;针对划分出的每一发音属性类别分别进行建模,并利用大规模普通话语料库作为训练数据集进行训练,得到多个发音属性特征提取器;将参与后续国别识别任务的所有二语语料输入各发音属性特征提取器中,对应每一帧语音的多个不同的发音属性,得到多组不同维度的发音属性特征;将各发音属性特征对应的属性后验概率进行拼接,得到每帧的发音属性超向量;使用发音属性超向量训练深度神经网络得到第一国别识别模型。本发明的国别识别方法识别准确率高,且采用本发明方法不需考虑发音人所说内容,也不需考虑当前所说的语言种类,都可识别出其国别。

    利用语音进行座席筛选的方法及系统

    公开(公告)号:CN102802114B

    公开(公告)日:2015-02-18

    申请号:CN201210210943.8

    申请日:2012-06-20

    Inventor: 解焱陆 张劲松

    Abstract: 本发明实施例提供了一种利用语音进行座席筛选的方法及系统,所述的方法包括:接收用户传送的语音信息;从所述的语音信息中提取对应的短时能量、基音、谱参数;根据所述的短时能量、基音、谱参数从预先设定的座席集中筛选出与所述的语音信息对应的座席。通过对用户语音进行分析,提取语义信息、身份信息、情绪特征、语言信息、年龄、性别特征,并根据此信息选择座席,无须使用IVR菜单进行用户手动选择座席,提升了用户对业务的使用体验,减少了等待时间,同时也减少了系统资源的浪费。

    汉语教学语音合成方法及装置

    公开(公告)号:CN102723077B

    公开(公告)日:2014-07-09

    申请号:CN201210207692.8

    申请日:2012-06-18

    Inventor: 解焱陆 张劲松

    Abstract: 本发明提供一种汉语教学语音合成方法及装置,其中,该方法包括:获取语言学习者语音以及多个标准教师语音;根据语音参数从多个标准教师语音中选择与语言学习者语音最接近的标准教师语音,其中,语音参数包括:声学参数、音高、节奏信息;根据最接近的标准教师语音与语言学习者语音合成声调教学语音。通过本发明,可以使得语言学习者更容易学习发音,从而可以给汉语学习者提供较好的帮助。

    一种确定学习者发音的不确定性的方法及装置

    公开(公告)号:CN115083437B

    公开(公告)日:2023-04-07

    申请号:CN202210535600.2

    申请日:2022-05-17

    Abstract: 本发明涉及发音质量评估技术领域,特别是指一种确定学习者发音的不确定性的方法及装置。方法包括:获取学习者的发音数据;基于所述学习者的发音数据,获取基准测听数据;基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性。采用本发明,可以对学习者发音的不确定性进行量化,并且对不同音素发音的不确定性进行单一向量的对比研究。

    一种基于变分自编码器的语音刺激连续统合成方法及装置

    公开(公告)号:CN113299267B

    公开(公告)日:2021-10-15

    申请号:CN202110841392.4

    申请日:2021-07-26

    Abstract: 本发明公开了一种基于变分自编码器的语音刺激连续统合成方法及装置,所述方法包括:从原始语音信号中提取关键声学线索;基于变分自编码器进行关键声学线索建模,并进行训练;利用训练好的关键声学线索模型合成语音连续统。所述装置包括:提取模块,用于从原始语音信号中提取关键声学线索;模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;合成模块,用于利用训练好的关键声学线索模型合成语音连续统。本发明通过深度学习模型来合成感知实验中所需要的语音刺激连续统,能够解决现有技术中手动修改造成的信息损失和不自然的问题。

    一种基于变分自编码器的语音刺激连续统合成方法及装置

    公开(公告)号:CN113299267A

    公开(公告)日:2021-08-24

    申请号:CN202110841392.4

    申请日:2021-07-26

    Abstract: 本发明公开了一种基于变分自编码器的语音刺激连续统合成方法及装置,所述方法包括:从原始语音信号中提取关键声学线索;基于变分自编码器进行关键声学线索建模,并进行训练;利用训练好的关键声学线索模型合成语音连续统。所述装置包括:提取模块,用于从原始语音信号中提取关键声学线索;模型建立模块,用于基于变分自编码器进行关键声学线索建模,并进行训练;合成模块,用于利用训练好的关键声学线索模型合成语音连续统。本发明通过深度学习模型来合成感知实验中所需要的语音刺激连续统,能够解决现有技术中手动修改造成的信息损失和不自然的问题。

    使用第一语言数据评估第二语言发音质量的方法及系统

    公开(公告)号:CN110415725B

    公开(公告)日:2020-06-02

    申请号:CN201910636633.4

    申请日:2019-07-15

    Abstract: 本发明提供一种使用第一语言数据评估第二语言发音质量的方法及系统,包括:划分出多个发音属性;针对每一发音属性分别建立与其对应的属性模型;获取第一语言的语音数据构建训练数据集,基于划分的发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集;针对每一属性模型分别采用对应的发音属性特征集进行训练;获取待评估的第二语言的语音数据,利用训练好的属性模型对所述第二语言的发音质量进行评估。本发明使用第一语言数据进行建模,对第二语言的发音质量进行测试评估,所提供的方法能做到所有语言通用,所建模型可用于发音偏误检测,音素识别等多种单项任务,还可以作为前端任务为后端提供准确的语音知识特征。

    使用第一语言数据评估第二语言发音质量的方法及系统

    公开(公告)号:CN110415725A

    公开(公告)日:2019-11-05

    申请号:CN201910636633.4

    申请日:2019-07-15

    Abstract: 本发明提供一种使用第一语言数据评估第二语言发音质量的方法及系统,包括:划分出多个发音属性;针对每一发音属性分别建立与其对应的属性模型;获取第一语言的语音数据构建训练数据集,基于划分的发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集;针对每一属性模型分别采用对应的发音属性特征集进行训练;获取待评估的第二语言的语音数据,利用训练好的属性模型对所述第二语言的发音质量进行评估。本发明使用第一语言数据进行建模,对第二语言的发音质量进行测试评估,所提供的方法能做到所有语言通用,所建模型可用于发音偏误检测,音素识别等多种单项任务,还可以作为前端任务为后端提供准确的语音知识特征。

Patent Agency Ranking