-
公开(公告)号:CN113420121A
公开(公告)日:2021-09-21
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN113420112A
公开(公告)日:2021-09-21
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN113420112B
公开(公告)日:2025-02-18
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/334 , G06F40/289 , G06F18/214 , G06F18/23213
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN119559964A
公开(公告)日:2025-03-04
申请号:CN202310496296.X
申请日:2023-05-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提供了一种伪造语音检测方法,包括:训练阶段,训练阶段包括:采集用于训练第一语音信号;确定第一语音信号中的静音帧和语音帧;对第一语音信号的静音帧进行零值掩蔽;获取掩蔽后的第一语音信号的特征;将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型;推理阶段,推理阶段包括:采集目标语音,获取目标语音的特征;对所述目标语音进行零值掩蔽,获取掩蔽后的所述目标语音的特征;将目标语音的特征输入训练好伪造语音检测模型,输出目标语音的检测结果,检测结果包括目标语音为伪造语音或目标语音为真语音。
-
公开(公告)号:CN113420121B
公开(公告)日:2023-07-28
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06F18/214
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN113868379B
公开(公告)日:2024-08-09
申请号:CN202111177010.9
申请日:2021-10-09
Applicant: 中国科学院声学研究所
IPC: G06F16/33 , G06F16/332 , G06F40/216 , G06F40/295
Abstract: 本申请提供了一种面向开放域问答的段落选择方法、装置、设备及存储介质,涉及自然语言处理技术领域。该方法包括:通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。
-
公开(公告)号:CN111938691B
公开(公告)日:2022-03-18
申请号:CN202010829479.5
申请日:2020-08-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。
-
公开(公告)号:CN113868379A
公开(公告)日:2021-12-31
申请号:CN202111177010.9
申请日:2021-10-09
Applicant: 中国科学院声学研究所
IPC: G06F16/33 , G06F16/332 , G06F40/216 , G06F40/295
Abstract: 本申请提供了一种面向开放域问答的段落选择方法、装置、设备及存储介质,涉及自然语言处理技术领域。该方法包括:通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。
-
公开(公告)号:CN111938691A
公开(公告)日:2020-11-17
申请号:CN202010829479.5
申请日:2020-08-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。
-
公开(公告)号:CN111626298A
公开(公告)日:2020-09-04
申请号:CN202010306188.8
申请日:2020-04-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。
-
-
-
-
-
-
-
-
-