具有多重注意机制的卷积循环神经网络的语音情感识别方法

    公开(公告)号:CN113450830A

    公开(公告)日:2021-09-28

    申请号:CN202110695847.6

    申请日:2021-06-23

    Applicant: 东南大学

    Abstract: 本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。

    一种用于语音情感识别的自学习语谱图特征提取方法

    公开(公告)号:CN105047194A

    公开(公告)日:2015-11-11

    申请号:CN201510450338.1

    申请日:2015-07-28

    Applicant: 东南大学

    Abstract: 本发明公开了一种用于语音情感识别的自学习语谱图特征提取方法,首先对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;然后计算所得到的语谱图灰度图像的Gabor语谱图;再采用可辨别特征学习算法对提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合;最后采用全局显著性集合对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图,将N个统计直方图级联,得到适合情感分类的语音情感特征。本发明提出的情感特征可以较好地识别不同种类的情感,识别率显著优于现有的声学特征。

    一种基于压缩传感器的助听器声源定位方法

    公开(公告)号:CN102736064A

    公开(公告)日:2012-10-17

    申请号:CN201110092816.8

    申请日:2011-04-14

    Applicant: 东南大学

    Abstract: 本发明提供一种基于压缩传感器的助听器声源定位方法,本发明基于差分麦克风阵列,包括以下步骤:采用位于同一平面的全向型麦克风方阵采集声源信号,获得信号的差分模型,建立基于压缩感知的采样信号模型,将声源位置评估问题转化为最优化问题,最后得到最优的重构信号,求出能量峰值即声源所在位置。本发明采用联合多通道CS来采样数据,不需要参考阵元,并以信号帧平均值作为采集输入信号,大大减低了计算量,噪声鲁棒性强。

    基于多任务深度学习网络的螺旋麦克风阵列的声成像方法

    公开(公告)号:CN119165446A

    公开(公告)日:2024-12-20

    申请号:CN202411672346.6

    申请日:2024-11-21

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于多任务深度学习网络的螺旋麦克风阵列的声成像方法。通过短时傅里叶变换STFT,将麦克风阵列捕获的音频信号转为频谱图,提取其实部和虚部作为特征输入。这些特征分别输入到双流结构的双注意力网络中,以自适应方式融合局部和全局特征。之后,两路输出融合并通过卷积层及双向门控循环单元Bi‑GRU层进一步处理。通过两个全连接层分别计算声源位置和声压分布。最后,成像模块将声压分布信息与摄像头图像结合,生成直观的声像图。本发明通过引入频谱图的实部和虚部分量作为特征输入的双流结构,并分别结合双注意力网络模块,实现了在较少阵元条件下进行实时声源定位与成像,并且具备较高的空间分辨率和较强的抗干扰能力。

    基于注意力机制的语音情感识别方法

    公开(公告)号:CN109285562B

    公开(公告)日:2022-09-23

    申请号:CN201811135064.7

    申请日:2018-09-28

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。

    一种智能助听器非线性验配公式实现方法

    公开(公告)号:CN114786107A

    公开(公告)日:2022-07-22

    申请号:CN202210508181.3

    申请日:2022-05-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种智能助听器非线性验配公式实现方法,包括:步骤S1、获得听障患者实际测量不少于8个频点的听力图数据;如果少于8个频点,则线性插值得到8点听力图数据;步骤S2、根据听障患者的8点听力图数据,计算得到患者在当前声压级下几个关键频率的验配补偿预测值;步骤S3、以关键频率的验配补偿预测值为基础,进行分段线性插值,得到全部19个频率的验配补偿预测值,实现智能助听器非线性验配公式的拟合。本发明给出了一种助听器非线性验配公式的实现方法,以经典拟合思路实现非线性验配公式的增益补偿计算,通过最小二乘法的线性回归和多项式回归保证了多项式拟合的精度,丰富了非线性验配公式的实现思路。

    一种基于时域卷积网络的多模态情感识别方法

    公开(公告)号:CN112784730A

    公开(公告)日:2021-05-11

    申请号:CN202110072249.3

    申请日:2021-01-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于时域卷积网络的多模态情感识别方法,对音视频样本中的视频模态数据间隔采样并进行人脸检测与关键点定位,得到灰度人脸图像序列;进行短时傅里叶变换并通过梅尔滤波器组,得到梅尔声谱图;将灰度人脸图像序列和梅尔声谱图分别通过人脸图像卷积网络和声谱图像卷积网络,并进行特征融合;将融合特征序列输入时域卷积网络得到高级特征向量;将高级特征向量通过全连接层以及Softmax回归,得到每一情感类别的预测概率,与实际概率分布之间计算交叉熵损失,并通过反向传播训练整个网络,得到训练好的神经网络模型。本发明能够通过音视频预测情感,同时训练时长短,识别准确率高。

    一种基于特征-时间注意力机制的多模态情感识别方法

    公开(公告)号:CN112784798B

    公开(公告)日:2022-11-08

    申请号:CN202110135196.5

    申请日:2021-02-01

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明可以实现提升对于对音视频中人脸情感识别的准确率。

    一种基于特征-时间注意力机制的多模态情感识别方法

    公开(公告)号:CN112784798A

    公开(公告)日:2021-05-11

    申请号:CN202110135196.5

    申请日:2021-02-01

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明可以实现提升对于对音视频中人脸情感识别的准确率。

Patent Agency Ranking