一种自适应多频段语音混合情感感知方法

    公开(公告)号:CN118800282B

    公开(公告)日:2024-11-29

    申请号:CN202411273679.1

    申请日:2024-09-12

    Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。

    一种数字化回忆干预系统的智能语音互动方法

    公开(公告)号:CN118430542B

    公开(公告)日:2024-08-30

    申请号:CN202410888291.6

    申请日:2024-07-04

    Applicant: 吉林大学

    Abstract: 本申请涉及语音处理技术领域,具体涉及一种数字化回忆干预系统的智能语音互动方法,该方法包括:语音采集老年音频向量和青年音频向量;对老年音频向量进行语音增强,计算语音模糊度;计算基频频移距离,得到频移后老年语谱图;计算共振峰增强包络线;计算增强后包络线,得到共振峰增强频谱图;得到增强老年语谱图;对增强老年语谱图进行语音识别,获得文本数据;并与语料库内的文本数据进行对比,找到匹配的回答文本数据;将回答文本数据进行语音合成,完成语音交互和对老年人的回忆干预。本申请可降低老年人与青年人的语音特征差异,提高老年人语音识别的准确性。

    一种基于自然语言处理的智能机器人语音交互方法

    公开(公告)号:CN117995193A

    公开(公告)日:2024-05-07

    申请号:CN202410389699.9

    申请日:2024-04-02

    Abstract: 本发明涉及语音处理技术领域,具体涉及一种基于自然语言处理的智能机器人语音交互方法。本发明首先获取语音交互的所有待处理声帧序列及纯噪声帧,进而在每个交互声帧的语谱频率分块中筛选出疑似含噪分块;分析每个疑似含噪分块的噪声影响度,获取含噪分块;然后获取含噪分块的噪声增益值,根据纯噪声帧及每个交互声帧的灰度信息及含噪分块的噪声增益值,获取每个交互声帧的参考噪声帧,进而对每个待处理声帧序列降噪,进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性,分析噪声对不同声帧的不同频率范围的噪声影响度,进而对用于谱减的纯噪声进行精准调整以提高降噪效果,从而提高进行语音交互效果。

    一种基于深度学习的精神分裂症语音检测方法及系统

    公开(公告)号:CN117373492B

    公开(公告)日:2024-02-23

    申请号:CN202311680752.2

    申请日:2023-12-08

    Abstract: 本发明公开了一种基于深度学习的精神分裂症语音检测方法及系统,涉及个人健康风险评估技术领域,所述方法包括:获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取语音样本的声学特征参数集,声学特征参数集包括音质情感变化特征;构建声学特征参数集的语音向量,根据语音向量训练多尺度多头精神分裂症语音检测模型,其中,语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出受检者的人群类别。本发明集成希尔伯特黄变换和倒谱(56)对比文件Yan-Jia Huang 等.AssessingSchizophrenia Patients Through Linguisticand Acoustic Features Using Deep LearningTechniques《.IEEE TRANSACTIONS ON NEURALSYSTEMS AND REHABILITATION ENGINEERING》.2022,第30卷第947-956页.

    一种音视结合的发音质量评估方法及系统

    公开(公告)号:CN116649896A

    公开(公告)日:2023-08-29

    申请号:CN202310483423.2

    申请日:2023-04-28

    Abstract: 本发明提出一种音视结合的发音质量评估方法,包括:采集标准发音状态下某一音位的标准音视频,获取该音位的标准视位和标准舌位;采集用户实际发音状态的该音位的实际音视频,获取该用户发出该音位的实际视位和实际舌位;分别将该实际视位与标准视位、该实际舌位与该标准舌位进行比对,得到该用户对该音位的发音偏差;基于该发音偏差生成矫正建议,并反馈给该用户进行发音矫正。本发明还提出一种音视结合的发音质量评估系统,以及一种用于用户发音质量评估的数据处理装置。

    谱减法降噪下多语音特征融合的抑郁症检测方法

    公开(公告)号:CN113012720B

    公开(公告)日:2023-06-16

    申请号:CN202110184566.4

    申请日:2021-02-10

    Abstract: 本发明提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。首先从语音样本文件中分离出被试者的语音信息,分割较长的语音数据,同时获取对应的PHQ‑8抑郁症筛查量表得分。其次,利用改进的谱减法进行语音增强,消除环境噪声对语音的影响,对增强后的语音采用短时傅里叶变换得到频谱图,同时,提取每个片段的MFCC及共振峰特征,进行音频差分归一化处理获取局部非个性化的抑郁特征。将三种特征融合输入到改进的时间卷积神经网络(Temporal Convolutional Network,TCN)模型中完成分类和回归任务,以F1得分和均方误差为评价指标,来判断多种语音特征融合的抑郁症检测方法的准确性,实验结果证明本发明所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法。

Patent Agency Ranking