-
公开(公告)号:CN113450830A
公开(公告)日:2021-09-28
申请号:CN202110695847.6
申请日:2021-06-23
Applicant: 东南大学
Abstract: 本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。
-
公开(公告)号:CN113449661A
公开(公告)日:2021-09-28
申请号:CN202110758045.5
申请日:2021-07-05
Applicant: 东南大学
Abstract: 本发明公开了一种基于注意力机制的自适应微表情识别方法,包括如下步骤:对微表情数据库的图像序列进行一系列的预处理工作;每个微表情序列作为一个样本,从每个序列中以一定的间隔选取一定数量的图像,选取的每张图像采用基于运动放大的方法放大1‑9倍;在一组不同的放大图像间添加注意力权重,并将其最终整合成一个特征向量;对于同一序列下的一组图像对应的一组向量,通过注意力机制对这些向量施加不同的注意力权重,再次以相同方式将这些向量整合成一个向量;将最终表示向量送入网络进行训练;获取待识别的微表情图像序列,按照上述方式得到最终表示向量后,输出情感类别。本发明能够获得更高的识别准确率。
-
公开(公告)号:CN107886942A
公开(公告)日:2018-04-06
申请号:CN201711055574.9
申请日:2017-10-31
Applicant: 东南大学
CPC classification number: G10L15/02 , G10L15/063 , G10L15/08 , G10L15/10 , G10L25/63 , G10L2015/0631
Abstract: 本发明公开了一种基于局部惩罚随机谱回归的语音信号情感识别方法,对带有情感信息的语段信号样本进行副语言特征提取、数据映射、局部惩罚嵌入图设计和图分解、回归、分类器分类判决。其中在数据映射阶段,使用了随机生成点进行非线性特征映射;在局部惩罚嵌入图设计和图分解阶段,使用了局部惩罚嵌入图,以加大对类间边缘样本对之间的惩罚权重,生成训练样本的虚拟坐标。与现有方法相比,本发明的方法在语音信号情感识别方面,能够有效地提升系统的识别性能。
-
公开(公告)号:CN105047194A
公开(公告)日:2015-11-11
申请号:CN201510450338.1
申请日:2015-07-28
Applicant: 东南大学
Abstract: 本发明公开了一种用于语音情感识别的自学习语谱图特征提取方法,首先对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;然后计算所得到的语谱图灰度图像的Gabor语谱图;再采用可辨别特征学习算法对提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合;最后采用全局显著性集合对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图,将N个统计直方图级联,得到适合情感分类的语音情感特征。本发明提出的情感特征可以较好地识别不同种类的情感,识别率显著优于现有的声学特征。
-
公开(公告)号:CN103280224B
公开(公告)日:2015-09-16
申请号:CN201310146293.X
申请日:2013-04-24
Applicant: 东南大学
Abstract: 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。
-
公开(公告)号:CN104537386A
公开(公告)日:2015-04-22
申请号:CN201410677256.6
申请日:2014-11-21
Applicant: 东南大学
CPC classification number: G06T2207/20036
Abstract: 本发明公开了一种基于级联混合高斯形状模型的多姿态图像特征点配准方法。该方法针对任意一种图像特征点定位器的定位结果,本发明中的配准方法能够显著提高其定位精度。本发明中所述的配准方法主要包括以下步骤:一、在多姿态的图像数据库上进行混合高斯形状模型的建模;二、采用一种级联的混合高斯形状模型对特征点进行校准,在每一级中,遍历特征点可能组成的形状,通过计算该形状对应的似然概率的阈值来判断出错误定位的特征点;三、采用正确特征点的高斯分布条件概率进行错误特征点的纠错。
-
-
公开(公告)号:CN104050963A
公开(公告)日:2014-09-17
申请号:CN201410283309.6
申请日:2014-06-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于情感数据场的连续语音情感预测算法,首先根据数据场理论,利用情感数据场中势函数建立不同语音情感特征向量之间的联系;其次,在短时间上选取多个语音情感特征向量,用群体智能算法在情感数据场中研究各语音情感特征向量的变化趋势,将这种变化趋势作为语音情感的识别结果。实验表明,本发明的方法可以有效的解决语音情感识别中存在的情感跟踪延迟问题并有效预测说话人情感的变化。
-
公开(公告)号:CN103531208A
公开(公告)日:2014-01-22
申请号:CN201310534910.3
申请日:2013-11-01
Applicant: 东南大学
IPC: G10L25/63
Abstract: 本发明公开了一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率;回忆正确率的先验概率,与调节系数共同构成帧的重要性权重;基于各帧的重要性权重,计算语音段的判决融合权重;各语音段进行情感识别;根据判决融合权重,进行情感融合,获得最终的识别结果。本发明的方法可以有效地提高与文本相关的说话人识别系统的识别正确率,此外系统对噪声也具有较好的鲁棒性。
-
公开(公告)号:CN102736064A
公开(公告)日:2012-10-17
申请号:CN201110092816.8
申请日:2011-04-14
Applicant: 东南大学
IPC: G01S5/20
Abstract: 本发明提供一种基于压缩传感器的助听器声源定位方法,本发明基于差分麦克风阵列,包括以下步骤:采用位于同一平面的全向型麦克风方阵采集声源信号,获得信号的差分模型,建立基于压缩感知的采样信号模型,将声源位置评估问题转化为最优化问题,最后得到最优的重构信号,求出能量峰值即声源所在位置。本发明采用联合多通道CS来采样数据,不需要参考阵元,并以信号帧平均值作为采集输入信号,大大减低了计算量,噪声鲁棒性强。
-
-
-
-
-
-
-
-
-