-
公开(公告)号:CN109741731B
公开(公告)日:2020-12-29
申请号:CN201910015434.1
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。
-
公开(公告)号:CN109741731A
公开(公告)日:2019-05-10
申请号:CN201910015434.1
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。
-
公开(公告)号:CN108664622A
公开(公告)日:2018-10-16
申请号:CN201810455198.0
申请日:2018-05-14
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于二级倒排表的树状音频特征索引库建立方法,所述音频特征索引库建立方法在数字集成电路芯片中进行以下步骤:步骤1:对音频数据库中的所有特征分段进行粗量化;步骤2:对步骤1中的粗量化残差进行二级粗量化;步骤3:对粗量化残差进行乘积矢量量化;步骤4:插入倒排表。
-
公开(公告)号:CN112215908B
公开(公告)日:2022-12-02
申请号:CN202011086137.5
申请日:2020-10-12
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种面向压缩域的视频内容比对系统、优化方法、比对方法,旨在为了解决使用全解码信息完成视频内容比对效率不高的问题。本发明比对系统包括:特征学习模块,基于输入视频的多种压缩域信息,分别获取多种模态的特征图;多模态压缩域信息融合模块,对所述特征学习模块输出的多种模态的特征图进行信息融合,得到所述输入视频的融合特征向量;第二模块,配置为获取两个输入视频的融合特征向量的L1距离;分类器为二分类网络,配置为基于所述第二模块输出的L1距离进行比对结果的二分类。本发明可以有效地提取视频内容的高层语义信息,保证了视频内容的比对高速度和高性能。
-
公开(公告)号:CN107305767B
公开(公告)日:2020-03-17
申请号:CN201610236672.1
申请日:2016-04-15
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/00 , G10L15/04 , G10L15/10 , G06F40/263
Abstract: 本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。不同语速的语音的语种信息具有互补性,本发明所提出的方法可以显著提升短时语音的语种识别性能。
-
公开(公告)号:CN104734999B
公开(公告)日:2018-12-14
申请号:CN201510103683.8
申请日:2015-03-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京天元特通科技有限公司
IPC: H04L12/931
Abstract: 本发明公开了一种仅支持报文单向传输的OpenFlow交换机。该交换机包括输入端口和输出端口,当交换机传输报文时,报文沿交换机的输入端口向交换机的输出端口的方向进行单向传输。通过这种方式,能够使得报文进行单向传输。
-
公开(公告)号:CN104992708B
公开(公告)日:2018-07-24
申请号:CN201510236568.8
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
-
公开(公告)号:CN108305616A
公开(公告)日:2018-07-20
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN106297769A
公开(公告)日:2017-01-04
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN102761487B
公开(公告)日:2016-04-27
申请号:CN201210242506.4
申请日:2012-07-12
Applicant: 国家计算机网络与信息安全管理中心 , 曙光信息产业(北京)有限公司
Abstract: 本发明公开了一种数据流处理方法和系统,该方法用于借助众核处理器的多个处理核心对数据流进行解码处理,其中,多个处理器核心被划分为多个资源组,该方法包括:将数据流分配给多个资源组中的部分或全部;以及每个资源组对被分配到该资源组的数据流进行解码处理。本发明通过将数据流分配给多个处理核心划分得到的多个资源组中的部分或全部,并在每个资源组中对被分配到该资源组的数据流进行解码处理,从而能够对多个数据流进行并行处理,并且减少各个流的各个片段输入产生的响应延迟以及整个流的响应延迟,提高了处理效率,优化了处理器资源的使用。
-
-
-
-
-
-
-
-
-