-
公开(公告)号:CN108305616B
公开(公告)日:2021-03-16
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN106297769B
公开(公告)日:2019-07-09
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN106960672B
公开(公告)日:2020-08-21
申请号:CN201710203054.1
申请日:2017-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0388 , H04S7/00
Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括:将立体声信号分解为直达声和扩散声;按照预设的频带扩展方法对扩散声进行带宽扩展;将直达声分离成多个不同方位的点声源,对多个点声源分别进行带宽扩展,得到带宽扩展后的多个点声源;将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合,得到带宽扩展后的直达声;根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案,解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展,没有考虑到两个声道中信号能量和相位的相关性,其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。
-
公开(公告)号:CN104992708B
公开(公告)日:2018-07-24
申请号:CN201510236568.8
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
-
公开(公告)号:CN108305616A
公开(公告)日:2018-07-20
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN106297769A
公开(公告)日:2017-01-04
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN106972967A
公开(公告)日:2017-07-21
申请号:CN201710195501.3
申请日:2017-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
CPC classification number: H04L41/147 , G06N20/00 , G06Q10/04 , H04L41/12
Abstract: 本发明提出了一种用于链路预测的深度学习降维方法和装置,该方法,包括:根据各个网络节点在设定时间段内的连接关系,确定每个网络节点的一级连接网络节点和二级连接网络节点;按照设定时长将所述设定时间段划分为多个时间片,并根据所述各个网络节点在每个时间片内的连接关系,确定出在每个时间片内每个网络节点与对应的一级连接网络节点和二级连接网络节点的连接关系;根据在每个时间片内每个网络节点与对应的一级连接网络节点和二级连接网络节点的连接关系,通过深度学习算法模型,对所述各个网络节点进行链路预测。本发明减少输入到深度学习算法模型的数据量,减少学习训练时间并提高链路预测的准确性。
-
公开(公告)号:CN106960672A
公开(公告)日:2017-07-18
申请号:CN201710203054.1
申请日:2017-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0388 , H04S7/00
CPC classification number: G10L21/0388 , H04S7/303
Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括:将立体声信号分解为直达声和扩散声;按照预设的频带扩展方法对扩散声进行带宽扩展;将直达声分离成多个不同方位的点声源,对多个点声源分别进行带宽扩展,得到带宽扩展后的多个点声源;将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合,得到带宽扩展后的直达声;根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案,解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展,没有考虑到两个声道中信号能量和相位的相关性,其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。
-
公开(公告)号:CN106297819B
公开(公告)日:2019-09-06
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在在噪声环境下的性能。
-
公开(公告)号:CN106297819A
公开(公告)日:2017-01-04
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在噪声环境下的性能。
-
-
-
-
-
-
-
-
-