-
公开(公告)号:CN112562642A
公开(公告)日:2021-03-26
申请号:CN202011198847.7
申请日:2020-10-31
Applicant: 苏州大学
IPC: G10L15/02
Abstract: 本发明公开了一种动态多频带非线性语音特征提取方法,将语音样本采用基于人耳听觉特性的巴克滤波器组进行滤波分频。分频后的24个频带信号通过计算过零率的方式,自适应获得分频因子a。随后在第0至a个频带中,将语音计算频谱、对数运算后采用离散余弦变换方案来提取巴克频率倒谱系数特征;在第a+1至24的频带中,将信号嵌入相空间后提取最大李雅普诺夫指数和关联维特征,随后进行特征统一化处理。本发明采用自适应分频因子,采用分频带处理的方式,使处理之后的信号更加符合人类的听觉特性和实际情况,从而能够提取出性能更优秀的语音特征参数。
-
公开(公告)号:CN116597864A
公开(公告)日:2023-08-15
申请号:CN202310534832.0
申请日:2023-05-12
Applicant: 苏州大学
Abstract: 本发明提供了一种嗓音检测方法及装置,涉及声音检测技术领域。包括:将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;利用一维深度可分离卷积神经网络的第一路径和第二路径分别提取多频带语音信号的时间特征和时频特征,并组合得到多频带语音信号特征向量;利用全连接网络对多频带语音信号特征向量进行分类得到分类结果,将分类结果作为待检测语音信号的异常指数。本发明使用可解释卷积滤波器组可以更好的捕捉待检测语音信号的频带信息,而一维深度可分离卷积神经网络可以分别提取多频带语音信号的时间特征和时频特征,增加了特征提取的有效性,使得该方法更具有可解释性,提高了嗓音检测结果的可靠性。
-
公开(公告)号:CN114550697B
公开(公告)日:2022-11-18
申请号:CN202210083571.0
申请日:2022-01-17
Applicant: 苏州大学
Abstract: 本发明涉及一种联合混合采样和随机森林的语音样本均衡方法,首先对初始语音数据集进行特征提取;然后利用SMOTE‑ENN混合采样对提取后的语音数据特征集进行均衡处理,获得当前均衡的语音数据集;其次将当前均衡的语音数据集输入至双因子随机森林模型中,输出双因子随机森林模型的分类评估指标和袋外错误分类率;最后判断分类评估指标是否收敛,若分类评估指标收敛,则输出当前均衡的语音数据集;否则根据袋外错误分类率更新SMOTE‑ENN混合采样的混合采样率,返回重新对提取后的语音数据集进行均衡处理,直至分类评估指标收敛,输出当前均衡语音数据集。本发明最大化保留了信息价值高的样本数据。
-
公开(公告)号:CN114550697A
公开(公告)日:2022-05-27
申请号:CN202210083571.0
申请日:2022-01-17
Applicant: 苏州大学
Abstract: 本发明涉及一种联合混合采样和随机森林的语音样本均衡方法,首先对初始语音数据集进行特征提取;然后利用SMOTE‑ENN混合采样对提取后的语音数据特征集进行均衡处理,获得当前均衡的语音数据集;其次将当前均衡的语音数据集输入至双因子随机森林模型中,输出双因子随机森林模型的分类评估指标和袋外错误分类率;最后判断分类评估指标是否收敛,若分类评估指标收敛,则输出当前均衡的语音数据集;否则根据袋外错误分类率更新SMOTE‑ENN混合采样的混合采样率,返回重新对提取后的语音数据集进行均衡处理,直至分类评估指标收敛,输出当前均衡语音数据集。本发明通过联合SMOTE‑ENN混合采样和双因子随机森林模型均衡数据集,最大化保留了信息价值高的样本数据。
-
公开(公告)号:CN116859336B
公开(公告)日:2024-09-13
申请号:CN202310862367.3
申请日:2023-07-14
Applicant: 苏州大学
IPC: G01S5/18 , G06N3/0464 , G06N3/048 , G06F18/213 , G06F18/25
Abstract: 本发明属于声源定位的技术领域,公开了一种声源定位的高精度实现方法,包括利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;通过构建二十面体特征注意力网络模型进行特征提取;对特征进行学习,实现高精度声源定位。本发明提供的一种声源定位的高精度实现方法,通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求,减少目前高精度声源定位的实现成本,有着很好的实用性。
-
公开(公告)号:CN116859336A
公开(公告)日:2023-10-10
申请号:CN202310862367.3
申请日:2023-07-14
Applicant: 苏州大学
IPC: G01S5/18 , G06N3/0464 , G06N3/048 , G06F18/213 , G06F18/25
Abstract: 本发明属于声源定位的技术领域,公开了一种声源定位的高精度实现方法,包括利用双通道特性,并基于声源估计算法,计算各麦克风阵列之间的关系函数;通过构建二十面体特征注意力网络模型进行特征提取;对特征进行学习,实现高精度声源定位。本发明提供的一种声源定位的高精度实现方法,通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求,减少目前高精度声源定位的实现成本,有着很好的实用性。
-
公开(公告)号:CN114999459A
公开(公告)日:2022-09-02
申请号:CN202210481126.X
申请日:2022-05-05
Applicant: 苏州大学
Abstract: 本发明公开了一种基于多尺度递归量化分析的语音识别方法及系统,所述方法包括以下步骤:提取语音信号的声门波信号;利用Gammatone滤波器对声门波信号多频带划分,得到若干个频率通道的声门波信号;通过时间延迟和嵌入维数重建各频率通道的声门波信号的多尺度相空间,并根据相空间中两两相点之间的距离构建递归图;根据递归图量化声门波信号在各频率通道中的非线性动态递归特性,得到各频率通道的声门波信号的若干特征参数;将语音信号分为训练集与测试集,利用训练集的特征参数训练识别模型;利用训练好的识别模型对测试集的特征参数进行预测分类。本发明能够准确量化语音信号中的非线性特征,提高语音识别准确率。
-
-
-
-
-
-