一种交互式人脸语音标注方法、装置、设备及存储介质

    公开(公告)号:CN117235667A

    公开(公告)日:2023-12-15

    申请号:CN202311237025.9

    申请日:2023-09-25

    Applicant: 华侨大学

    Abstract: 本发明提供了一种交互式人脸语音标注方法、装置、设备及存储介质,先接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;接着获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;再接着根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;最后基于所述对齐操作所述人脸图像和所述语音信号进行标注,有效地将不同模态特征准确映射到公共的特征空间中,实现异构模态信息之间的可比性,从而提高交互式人脸语音标注的准确性。

Patent Agency Ranking