-
公开(公告)号:CN113643723B
公开(公告)日:2023-07-25
申请号:CN202110726187.3
申请日:2021-06-29
Applicant: 重庆邮电大学
IPC: G10L25/63 , G10L25/30 , G10L25/03 , G06F18/241 , G06V40/16 , G06N3/044 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,包括步骤:S1,将语音信号经过预处理得到三维对数梅尔谱图;S2,利用三维对数梅尔谱图预训练3DRACNN语音网络提高泛化能力;S3,通过CNN和AGRUs分别提取面部静态外观特征和几何特征;S4,为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征,并由KLDA过滤无关特征;S5,在模型训练的过程中通过更新参数最小化损失,同时通过算法进行优化,最后由softmax层进行情感分类。本发明能够有效解决情感识别模型识别率低以及泛化能力弱的问题,提高识别准确率和鲁棒性。
-
公开(公告)号:CN113642393B
公开(公告)日:2024-03-22
申请号:CN202110768272.6
申请日:2021-07-07
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于注意力机制的多特征融合视线估计方法,该方法包括利用MTCNN算法对人脸和人脸关键点进行检测,从而获得视线估计所需的人脸和眼睛图片;利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器,选择并增强人脸及双眼图片中的重要特征,并抑制与视线估计无关的信息;利用双眼特征融合网络和眼瞳特征融合网络,将双眼及瞳孔中心位置特征进行融合,并与人脸特征向量进行拼接以实现多特征融合,从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。通过在公开数据集MPIIGaze及EyeDiap上进行验证,并与当前主流的视线估计方法进行比较,本发明提出的视线估计方法具有更小的平均角误差,有效提高了自然场景中视线估计的精度和鲁棒性。
-
公开(公告)号:CN113643723A
公开(公告)日:2021-11-12
申请号:CN202110726187.3
申请日:2021-06-29
Applicant: 重庆邮电大学
Abstract: 本发明公开了一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,包括步骤:S1,将语音信号经过预处理得到三维对数梅尔谱图;S2,利用三维对数梅尔谱图预训练3DRACNN语音网络提高泛化能力;S3,通过CNN和AGRUs分别提取面部静态外观特征和几何特征;S4,为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征,并由KLDA过滤无关特征;S5,在模型训练的过程中通过更新参数最小化损失,同时通过算法进行优化,最后由softmax层进行情感分类。本发明能够有效解决情感识别模型识别率低以及泛化能力弱的问题,提高识别准确率和鲁棒性。
-
公开(公告)号:CN113642393A
公开(公告)日:2021-11-12
申请号:CN202110768272.6
申请日:2021-07-07
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于注意力机制的多特征融合视线估计方法,该方法包括利用MTCNN算法对人脸和人脸关键点进行检测,从而获得视线估计所需的人脸和眼睛图片;利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器,选择并增强人脸及双眼图片中的重要特征,并抑制与视线估计无关的信息;利用双眼特征融合网络和眼瞳特征融合网络,将双眼及瞳孔中心位置特征进行融合,并与人脸特征向量进行拼接以实现多特征融合,从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。通过在公开数据集MPIIGaze及EyeDiap上进行验证,并与当前主流的视线估计方法进行比较,本发明提出的视线估计方法具有更小的平均角误差,有效提高了自然场景中视线估计的精度和鲁棒性。
-
-
-