-
公开(公告)号:CN103578481B
公开(公告)日:2016-04-27
申请号:CN201210256381.0
申请日:2012-07-24
Abstract: 本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。
-
公开(公告)号:CN103578481A
公开(公告)日:2014-02-12
申请号:CN201210256381.0
申请日:2012-07-24
Abstract: 本发明公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。
-
公开(公告)号:CN103578480B
公开(公告)日:2016-04-27
申请号:CN201210256326.1
申请日:2012-07-24
Abstract: 本发明公开了一种负面情绪检测中的基于上下文修正的语音情感识别方法,属于语音信号处理领域。本发明首先采集情感数据,并对其中的每一条语音进行特征提取,并且运用主分量分析的降维技术降低特征的维数,而后采用基于高斯混合模型的两类分类器分别对四类情感进行判别,得到当前时刻的情感矢量,最后根据前一时刻的情感矢量和当前的认知作业成绩来修正当前时刻的情感矢量,从而得到最终的语音情感识别结果。本发明可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能,有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下,对检测和调节工作人员的负面情绪具有重要的应用价值。
-
公开(公告)号:CN103578480A
公开(公告)日:2014-02-12
申请号:CN201210256326.1
申请日:2012-07-24
Abstract: 本发明公开了一种负面情绪检测中的基于上下文修正的语音情感识别方法,属于语音信号处理领域。本发明首先采集情感数据,并对其中的每一条语音进行特征提取,并且运用主分量分析的降维技术降低特征的维数,而后采用基于高斯混合模型的两类分类器分别对四类情感进行判别,得到当前时刻的情感矢量,最后根据前一时刻的情感矢量和当前的认知作业成绩来修正当前时刻的情感矢量,从而得到最终的语音情感识别结果。本发明可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能,有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下,对检测和调节工作人员的负面情绪具有重要的应用价值。
-
公开(公告)号:CN113450830A
公开(公告)日:2021-09-28
申请号:CN202110695847.6
申请日:2021-06-23
Applicant: 东南大学
Abstract: 本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。
-
公开(公告)号:CN113449661A
公开(公告)日:2021-09-28
申请号:CN202110758045.5
申请日:2021-07-05
Applicant: 东南大学
Abstract: 本发明公开了一种基于注意力机制的自适应微表情识别方法,包括如下步骤:对微表情数据库的图像序列进行一系列的预处理工作;每个微表情序列作为一个样本,从每个序列中以一定的间隔选取一定数量的图像,选取的每张图像采用基于运动放大的方法放大1‑9倍;在一组不同的放大图像间添加注意力权重,并将其最终整合成一个特征向量;对于同一序列下的一组图像对应的一组向量,通过注意力机制对这些向量施加不同的注意力权重,再次以相同方式将这些向量整合成一个向量;将最终表示向量送入网络进行训练;获取待识别的微表情图像序列,按照上述方式得到最终表示向量后,输出情感类别。本发明能够获得更高的识别准确率。
-
公开(公告)号:CN107886942A
公开(公告)日:2018-04-06
申请号:CN201711055574.9
申请日:2017-10-31
Applicant: 东南大学
CPC classification number: G10L15/02 , G10L15/063 , G10L15/08 , G10L15/10 , G10L25/63 , G10L2015/0631
Abstract: 本发明公开了一种基于局部惩罚随机谱回归的语音信号情感识别方法,对带有情感信息的语段信号样本进行副语言特征提取、数据映射、局部惩罚嵌入图设计和图分解、回归、分类器分类判决。其中在数据映射阶段,使用了随机生成点进行非线性特征映射;在局部惩罚嵌入图设计和图分解阶段,使用了局部惩罚嵌入图,以加大对类间边缘样本对之间的惩罚权重,生成训练样本的虚拟坐标。与现有方法相比,本发明的方法在语音信号情感识别方面,能够有效地提升系统的识别性能。
-
公开(公告)号:CN105047194A
公开(公告)日:2015-11-11
申请号:CN201510450338.1
申请日:2015-07-28
Applicant: 东南大学
Abstract: 本发明公开了一种用于语音情感识别的自学习语谱图特征提取方法,首先对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;然后计算所得到的语谱图灰度图像的Gabor语谱图;再采用可辨别特征学习算法对提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合;最后采用全局显著性集合对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图,将N个统计直方图级联,得到适合情感分类的语音情感特征。本发明提出的情感特征可以较好地识别不同种类的情感,识别率显著优于现有的声学特征。
-
公开(公告)号:CN103280224B
公开(公告)日:2015-09-16
申请号:CN201310146293.X
申请日:2013-04-24
Applicant: 东南大学
Abstract: 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。
-
公开(公告)号:CN104537386A
公开(公告)日:2015-04-22
申请号:CN201410677256.6
申请日:2014-11-21
Applicant: 东南大学
CPC classification number: G06T2207/20036
Abstract: 本发明公开了一种基于级联混合高斯形状模型的多姿态图像特征点配准方法。该方法针对任意一种图像特征点定位器的定位结果,本发明中的配准方法能够显著提高其定位精度。本发明中所述的配准方法主要包括以下步骤:一、在多姿态的图像数据库上进行混合高斯形状模型的建模;二、采用一种级联的混合高斯形状模型对特征点进行校准,在每一级中,遍历特征点可能组成的形状,通过计算该形状对应的似然概率的阈值来判断出错误定位的特征点;三、采用正确特征点的高斯分布条件概率进行错误特征点的纠错。
-
-
-
-
-
-
-
-
-