-
公开(公告)号:CN118800282B
公开(公告)日:2024-11-29
申请号:CN202411273679.1
申请日:2024-09-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 一种自适应多频段语音混合情感感知方法,输入语音信号经过预处理分帧,利用快速傅里叶变换获取频谱特征,信号通过梅尔尺度的三角滤波器组处理,模拟人类听觉系统的非线性频率特性,并通过离散余弦变换提取关键频率信息的梅尔频谱系数。根据语音共振峰F1、F2、F3进行频段划分,定制化特征提取策略。自适应深度残差块并行处理各频段特征,深度控制器动态调整网络深度以适应信号复杂度。ADRB中,多层蒸馏和残差通道实现多级特征提取,残差连接优化特征融合。混合区域注意力机制结合全局和局部注意力,强化频段间依赖关系。时间驱动模块加强时序连续性,最终特征融合用于情感分类和识别。该方法全面捕捉情感特征,显著提升情感状态识别的精度和效率。
-
公开(公告)号:CN118430542B
公开(公告)日:2024-08-30
申请号:CN202410888291.6
申请日:2024-07-04
Applicant: 吉林大学
Abstract: 本申请涉及语音处理技术领域,具体涉及一种数字化回忆干预系统的智能语音互动方法,该方法包括:语音采集老年音频向量和青年音频向量;对老年音频向量进行语音增强,计算语音模糊度;计算基频频移距离,得到频移后老年语谱图;计算共振峰增强包络线;计算增强后包络线,得到共振峰增强频谱图;得到增强老年语谱图;对增强老年语谱图进行语音识别,获得文本数据;并与语料库内的文本数据进行对比,找到匹配的回答文本数据;将回答文本数据进行语音合成,完成语音交互和对老年人的回忆干预。本申请可降低老年人与青年人的语音特征差异,提高老年人语音识别的准确性。
-
公开(公告)号:CN117935766B
公开(公告)日:2024-06-04
申请号:CN202410324909.6
申请日:2024-03-21
Applicant: 北京青藤科技股份有限公司
Inventor: 纪方圆
IPC: G10L13/027 , G10L25/03 , G10L25/15 , G10L25/21 , G10L25/30 , G10L15/02 , G10L15/04 , G06F18/213 , G06F18/214 , G06F18/23 , G06F18/241
Abstract: 本发明公开了一种AIGC模型的语音数据处理方法及系统,方法包括:对原始语音数据进行声谱动态映射处理,以匹配预设AIGC模型;将处理后的语音数据分割成多个语音样本,并提取每个语音样本的声学特征;对提取的声学特征进行熵值计算,得到熵声纹;根据所述熵声纹对语音样本进行归类,将归类后的语音样本通过所述预设AIGC模型,生成目标语音内容。利用本发明实施例,能够更全面地分析和处理语音数据,改善声学特征提取的多维性和多样性,并且能够增强AIGC模型生成语音的自然度和准确性。
-
公开(公告)号:CN117995193A
公开(公告)日:2024-05-07
申请号:CN202410389699.9
申请日:2024-04-02
Applicant: 山东天意装配式建筑装备研究院有限公司
IPC: G10L15/22 , G10L15/20 , G10L25/15 , G10L25/03 , G10L21/0208
Abstract: 本发明涉及语音处理技术领域,具体涉及一种基于自然语言处理的智能机器人语音交互方法。本发明首先获取语音交互的所有待处理声帧序列及纯噪声帧,进而在每个交互声帧的语谱频率分块中筛选出疑似含噪分块;分析每个疑似含噪分块的噪声影响度,获取含噪分块;然后获取含噪分块的噪声增益值,根据纯噪声帧及每个交互声帧的灰度信息及含噪分块的噪声增益值,获取每个交互声帧的参考噪声帧,进而对每个待处理声帧序列降噪,进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性,分析噪声对不同声帧的不同频率范围的噪声影响度,进而对用于谱减的纯噪声进行精准调整以提高降噪效果,从而提高进行语音交互效果。
-
公开(公告)号:CN117373492B
公开(公告)日:2024-02-23
申请号:CN202311680752.2
申请日:2023-12-08
Applicant: 北京回龙观医院(北京心理危机研究与干预中心)
IPC: G10L25/66 , A61B5/00 , A61B5/16 , G06N3/0464 , G06N3/08 , G10L25/63 , G10L25/24 , G10L25/15 , G10L25/30 , G10L25/27
Abstract: 本发明公开了一种基于深度学习的精神分裂症语音检测方法及系统,涉及个人健康风险评估技术领域,所述方法包括:获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取语音样本的声学特征参数集,声学特征参数集包括音质情感变化特征;构建声学特征参数集的语音向量,根据语音向量训练多尺度多头精神分裂症语音检测模型,其中,语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出受检者的人群类别。本发明集成希尔伯特黄变换和倒谱(56)对比文件Yan-Jia Huang 等.AssessingSchizophrenia Patients Through Linguisticand Acoustic Features Using Deep LearningTechniques《.IEEE TRANSACTIONS ON NEURALSYSTEMS AND REHABILITATION ENGINEERING》.2022,第30卷第947-956页.
-
公开(公告)号:CN117316168A
公开(公告)日:2023-12-29
申请号:CN202311134080.5
申请日:2017-04-06
Applicant: 弗劳恩霍夫应用研究促进协会
IPC: G10L19/02 , G10L19/028 , G10L19/03 , G10L19/032 , G10L19/04 , G10L19/06 , G10L19/12 , G10L19/16 , G10L19/26 , G10L21/007 , G10L21/02 , G10L21/0208 , G10L21/0324 , G10L21/038 , G10L25/15 , G10L25/18
Abstract: 一种用于对具有下频带和上频带的音频信号进行编码的音频编码器,包括:检测器(802),用于检测该音频信号的上频带中的尖峰频谱区域;整形器(804),用于使用下频带的整形信息来对该下频带进行整形,并且用于使用该下频带的整形信息的至少一部分来对上频带进行整形,其中,该整形器(804)被配置为额外地衰减上频带中的检测到的尖峰频谱区域中的频谱值;以及量化器和编码器级(806),用于对经整形的下频带和经整形的上频带进行量化,并且用于对来自该经整形的下频带和该经整形的上频带的经量化的频谱值进行熵编码。
-
公开(公告)号:CN116844567A
公开(公告)日:2023-10-03
申请号:CN202310623066.5
申请日:2023-05-29
Applicant: 中科极限元(杭州)智能科技股份有限公司
IPC: G10L25/51 , G10L25/03 , G10L25/30 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/044 , G06N3/08 , G10L25/12 , G10L25/15 , G10L25/24
Abstract: 本发明属于音频鉴别技术领域,具体提供了一种基于多特征重建融合的深度合成音频检测方法及系统,其中方法包括:从语音信号中提取多种特征,并进行标准化处理再融合得到原始特征向量;进行掩码处理后得到重建特征向量;对重建特征向量与真实特征进行损失计算,以训练得到融合多种特征信息特性的编码器;训练鉴别器,使得鉴别器能够区分真实语音和伪造音频。利用训练好的编码器和鉴别器便可以检测语音真伪。本方案综合利用多种特征对语音进行鉴别,结合多种语音特征,将不同的特征进行调整和标准化,并将它们组合起来进行训练和推理。通过采用基于多特征重建融合的深度合成模型对音频进行重建,大大提高了语音鉴伪的准确性和可靠性。
-
公开(公告)号:CN116649896A
公开(公告)日:2023-08-29
申请号:CN202310483423.2
申请日:2023-04-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视结合的发音质量评估方法,包括:采集标准发音状态下某一音位的标准音视频,获取该音位的标准视位和标准舌位;采集用户实际发音状态的该音位的实际音视频,获取该用户发出该音位的实际视位和实际舌位;分别将该实际视位与标准视位、该实际舌位与该标准舌位进行比对,得到该用户对该音位的发音偏差;基于该发音偏差生成矫正建议,并反馈给该用户进行发音矫正。本发明还提出一种音视结合的发音质量评估系统,以及一种用于用户发音质量评估的数据处理装置。
-
公开(公告)号:CN110958859B
公开(公告)日:2023-06-30
申请号:CN201880049623.4
申请日:2018-07-20
Applicant: 松下知识产权经营株式会社
Abstract: 本发明的认知能力评估装置(100)具备:获取部(110),其获取表示被评估者(U)发出的声音的声音数据;计算部(120),其从获取部(110)获取到的声音数据中提取多个元音,关于多个元音的各自计算基于从该元音的声谱得到的一个以上的共振峰的频率和振幅而得的特征量;评估部(130),其根据计算部(120)计算出的特征量来对被评估者(U)的认知能力进行评估;以及输出部(140),其输出评估部(130)评估出的评估结果。
-
公开(公告)号:CN113012720B
公开(公告)日:2023-06-16
申请号:CN202110184566.4
申请日:2021-02-10
Applicant: 杭州医典智能科技有限公司
Abstract: 本发明提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。首先从语音样本文件中分离出被试者的语音信息,分割较长的语音数据,同时获取对应的PHQ‑8抑郁症筛查量表得分。其次,利用改进的谱减法进行语音增强,消除环境噪声对语音的影响,对增强后的语音采用短时傅里叶变换得到频谱图,同时,提取每个片段的MFCC及共振峰特征,进行音频差分归一化处理获取局部非个性化的抑郁特征。将三种特征融合输入到改进的时间卷积神经网络(Temporal Convolutional Network,TCN)模型中完成分类和回归任务,以F1得分和均方误差为评价指标,来判断多种语音特征融合的抑郁症检测方法的准确性,实验结果证明本发明所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法。
-
-
-
-
-
-
-
-
-