一种综合性教学视频语音提取文本方法

    公开(公告)号:CN114639377B

    公开(公告)日:2025-01-10

    申请号:CN202210285395.9

    申请日:2022-03-23

    Applicant: 中南大学

    Abstract: 本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入Noisy Student Training半监督学习方法以使得模型可以在大规模无标签的数据下习通进行学。过实验证明,本文提出的方案可以有效地提高文本提取的效率与准确性。

    一种综合性教学视频语音提取文本方法

    公开(公告)号:CN114639377A

    公开(公告)日:2022-06-17

    申请号:CN202210285395.9

    申请日:2022-03-23

    Applicant: 中南大学

    Abstract: 本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入Noisy Student Training半监督学习方法以使得模型可以在大规模无标签的数据下习通进行学。过实验证明,本文提出的方案可以有效地提高文本提取的效率与准确性。

Patent Agency Ranking