-
公开(公告)号:CN111914803B
公开(公告)日:2023-06-13
申请号:CN202010827853.8
申请日:2020-08-17
Applicant: 华侨大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06V40/20 , G06V10/774 , G06V10/764 , G06N3/0464 , G06F16/732
Abstract: 本发明提供一种唇语关键词检测方法、装置、设备及存储介质,其中方法包括:通过DNN方法训练,得到一个二分类的DNN模型;基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;基于所述后验概率特征构建相似度矩阵图;通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。本发明通过端点检测、唇语识别器提取特征和构建相似度矩阵图,可降低未讲话片段对唇语关键词检测性能的影响,提高关键词检测的性能。
-
公开(公告)号:CN110633683B
公开(公告)日:2022-03-25
申请号:CN201910888992.9
申请日:2019-09-19
Applicant: 华侨大学
IPC: G06V40/20 , G06V10/82 , G06V10/764 , G06V10/774 , G06N3/04 , G10L15/25
Abstract: 本发明公开了一种结合DenseNet和resBi‑LSTM的中文句子级唇语识别方法,本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。使用resBi‑LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。
-
公开(公告)号:CN111914803A
公开(公告)日:2020-11-10
申请号:CN202010827853.8
申请日:2020-08-17
Applicant: 华侨大学
Abstract: 本发明提供一种唇语关键词检测方法、装置、设备及存储介质,其中方法包括:通过DNN方法训练,得到一个二分类的DNN模型;基于所述DNN模型,判断待检测的唇语视频中的每帧唇部图片的讲话状态,分离出所述唇语视频的讲话片段和非讲话片段;提取所述讲话片段,并通过唇语识别模型提取查询样例和讲话片段的每一帧唇部图片的特征,作为后验概率特征;基于所述后验概率特征构建相似度矩阵图;通过卷积神经网络分类模型对所述相似度矩阵图进行二分类,判断唇语视频中是否存在关键词。本发明通过端点检测、唇语识别器提取特征和构建相似度矩阵图,可降低未讲话片段对唇语关键词检测性能的影响,提高关键词检测的性能。
-
公开(公告)号:CN110633683A
公开(公告)日:2019-12-31
申请号:CN201910888992.9
申请日:2019-09-19
Applicant: 华侨大学
Abstract: 本发明公开了一种结合DenseNet和resBi-LSTM的中文句子级唇语识别方法,本发明将唇语识别拆分为拼音预测与语言翻译两个部分,降低了唇语识别的难度。使用DenseNet提取视觉特征,充分利用浅层特征,有效缓解了梯度消失的问题,并且减少了网络的参数。使用1×1卷积代替全连接实现特征降维的功能,保留了特征中的空间信息,在唇语识别技术研究中,空间信息起着重要作用。使用resBi-LSTM进行视觉特征的处理,最后得到结合了视觉特征和语义特征的复杂特征,减少了有效信息的损失,提高了唇语识别的准确率。
-
-
-