-
公开(公告)号:CN113420121A
公开(公告)日:2021-09-21
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN113420112A
公开(公告)日:2021-09-21
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN113077785A
公开(公告)日:2021-07-06
申请号:CN201911300918.7
申请日:2019-12-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
-
公开(公告)号:CN108305616B
公开(公告)日:2021-03-16
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN109599123B
公开(公告)日:2021-02-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN106297769B
公开(公告)日:2019-07-09
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN109599123A
公开(公告)日:2019-04-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN108629412A
公开(公告)日:2018-10-09
申请号:CN201710152727.5
申请日:2017-03-15
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06N3/08
Abstract: 本发明提供了一种基于无网格最大互信息准则的神经网络训练加速方法,本发明的方法通过对无网格最大互信息准则(LFMMI准则)下的神经网络CE准则输出端进行低秩转换,将原有的高秩矩阵模块拆分为两个低秩矩阵模块,拆分后的两个低秩矩阵模块内的子阵相乘最后的维度和之前的全连接矩阵一致,在保证神经网络CE准则输出端总体维度不变的情况下,利用改造后的低维度子阵进行神经网络训练,从而简化了运算结构,使神经网络的输出层前向计算和后向计算占据训练时间比例明显减小,加快了神经网络的训练。
-
公开(公告)号:CN108281137A
公开(公告)日:2018-07-13
申请号:CN201710002097.3
申请日:2017-01-03
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。
-
公开(公告)号:CN106296420A
公开(公告)日:2017-01-04
申请号:CN201510272423.3
申请日:2015-05-25
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种社区发现方法,包括:从待发现社区的网络中选取若干个种子节点,由所述种子节点出发进行局部扩张,得到网络中所要发现的社区。本发明的方法只需要从种子节点进行局部扩张,极大地降低了算法复杂度,以便应用于大规模的网络中。
-
-
-
-
-
-
-
-
-