Patent search ap:("国家计算机网络与信息安全管理中心") AND inv:"颜永红" Page 2

11.

发明公开
一种基于关键词特征嵌入语言模型的意图识别方法及系统审中-实审

公开(公告)号：CN112989839A

公开(公告)日：2021-06-18

申请号：CN201911309397.1

申请日：2019-12-18

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 颜永红 , 林格平 , 付瑞柳 , 万辛 , 张学君 , 孙旭东 , 孙晓晨

IPC: G06F40/30 , G06F40/284

Abstract: 本发明属于自然语言处理技术领域，具体涉及一种基于关键词特征嵌入语言模型的意图识别方法，包括：采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；针对获得的不同类别的分词结果，获得不同类别的分词结果对应的候选意图相关的关键词列表；剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词，获得每一种类别的分词结果对应的最终关键词表，进而获得不同的关键词特征向量；将获得的每一个关键词特征向量嵌入至预先训练好的语言模型，获得带有关键词特征的有效文本的语音信息；并对其进行编码和分类，获得该有效文本的语言信息的意图识别结果。

12.

发明公开
一种基于多说话人条件下目标说话人语音提取方法审中-实审

公开(公告)号：CN112331181A

公开(公告)日：2021-02-05

申请号：CN201910694870.6

申请日：2019-07-30

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 张鹏远 , 林格平 , 李文洁 , 万辛 , 戚梦苑 , 沈亮 , 颜永红

IPC: G10L15/02 , G10L15/06 , G10L25/18 , G10L25/24 , G10L25/30

Abstract: 本发明属于目标语音提取和自适应技术领域，具体涉及一种基于多说话人条件下目标说话人语音提取方法，该方法具体包括：实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；基于该目标说话人的语音频谱，获取目标说话人的语音。

13.

发明授权
一种立体声音频的带宽扩展方法与装置失效

公开(公告)号：CN106960672B

公开(公告)日：2020-08-21

申请号：CN201710203054.1

申请日：2017-03-30

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 高昕 , 颜永红 , 邹潇湘 , 白海钏 , 舒敏 , 云晓春 , 王锟 , 张震 , 计哲 , 董琳 , 金暐 , 王中华 , 李海灵 , 李佳

IPC: G10L21/0388 , H04S7/00

Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括：将立体声信号分解为直达声和扩散声；按照预设的频带扩展方法对扩散声进行带宽扩展；将直达声分离成多个不同方位的点声源，对多个点声源分别进行带宽扩展，得到带宽扩展后的多个点声源；将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合，得到带宽扩展后的直达声；根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案，解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展，没有考虑到两个声道中信号能量和相位的相关性，其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。

14.

发明授权
一种应用于语种识别的短时语音时长扩展方法失效

公开(公告)号：CN107305767B

公开(公告)日：2020-03-17

申请号：CN201610236672.1

申请日：2016-04-15

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 周若华 , 袁庆升 , 张健 , 颜永红 , 包秀国

IPC: G10L15/00 , G10L15/04 , G10L15/10 , G06F40/263

Abstract: 本发明提供了一种应用于语种识别的短时语音时长扩展方法，所述方法包括：对于一条时长较短的待识别语音，首先根据其语音时长确定生成的不同语速语音的数量n；然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移；根据分解帧移和合成帧移生成n个不同语速的语音，将n个不同语速的语音与原语音拼接起来，生成一个时长加长的语音。不同语速的语音的语种信息具有互补性，本发明所提出的方法可以显著提升短时语音的语种识别性能。

15.

发明公开
一种基于光学字符识别的传真图像分类方法无效

公开(公告)号：CN110119648A

公开(公告)日：2019-08-13

申请号：CN201810111564.0

申请日：2018-02-05

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 高圣翔 , 黄远 , 万辛 , 安茂波 , 李鹏 , 孙晓晨 , 沈亮 , 金鑫 , 徐及 , 刘珈麟 , 颜永红

IPC: G06K9/00 , G06K9/34 , G06K9/40 , G06K9/62

Abstract: 本发明公开了一种基于光学字符识别的传真图像分类方法，所述方法包括：步骤1)对扫描得到的传真图像进行噪声消除；步骤2)对噪声消除后的传真图像进行二值化处理；步骤3)对步骤2)得到的二值化图像进行仿射变换校准文本；步骤4)利用OCR方法对步骤3)处理后的传真图像进行识别，得到编码为UTF-8的输出字符串和转写置信度；步骤5)对字符串进行关键词正则匹配，得到传真图像的分类。本发明的方法利用频谱噪声消除和灰度图像二值化的预处理，在满足实时性要求的前提下提升了电子扫描得到的传真图像的质量；使传真图像能够使用基于OCR的分类方法，由此实现了传真图像的自动化分类。

16.

发明授权
短时特定音频检测模型生成与检测方法失效

公开(公告)号：CN104992708B

公开(公告)日：2018-07-24

申请号：CN201510236568.8

申请日：2015-05-11

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 云晓春 , 颜永红 , 袁庆升 , 黄宇飞 , 任彦 , 周若华 , 黄文廷 , 邹学强 , 包秀国

IPC: G10L15/06 , G10L15/14 , G10L25/24 , G10L21/02

Abstract: 本发明涉及一种短时特定音频检测模型生成方法，包括：对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；用训练语音数据的特征，进行通用背景模型的训练；由训练语音数据中某一类特定音频数据的特征，根据通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法，该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题，还可以一定程度的对输入数据的背景噪声进行抑制。

17.

发明公开
一种基于长短时特征提取的音频场景识别方法及装置有权

公开(公告)号：CN108305616A

公开(公告)日：2018-07-20

申请号：CN201810039421.3

申请日：2018-01-16

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 袁庆升 , 白海钏 , 张鹏远 , 包秀国 , 刘洋 , 张翠 , 汪立东 , 杜翠兰 , 时磊 , 张鸿 , 云晓春 , 颜永红 , 崔佳 , 林绅文 , 王钲淇

IPC: G10L15/02 , G10L15/08 , G10L15/14 , G10L25/24

Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置，该方法包括，对输入待识别音频信号进行预处理；对经过预处理后的所述待识别音频信号，进行短时音频特征提取，再进行长时音频特征提取，将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。本发明在常规短时特征提取的基础之上，进一步联合音频场景长时特征，可以表征复杂的音频场景信息，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签，其鲁棒性更强、区分性更好，且能够在更大程度上表征场景数据的整体特性，识别效率高、稳定性强。

18.

发明公开
一种应用于语种识别的鉴别性特征提取方法有权

公开(公告)号：CN106297769A

公开(公告)日：2017-01-04

申请号：CN201510280471.7

申请日：2015-05-27

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 袁庆升 , 周若华 , 云晓春 , 张健 , 陈训逊 , 颜永红 , 徐杰 , 李锐光

IPC: G10L15/02

Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法，包括：在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概率特征向量根据F比指标做特征加权。

19.

发明授权
语言模型的训练方法、NLP任务处理方法及装置有权

公开(公告)号：CN113420123B

公开(公告)日：2025-01-14

申请号：CN202110705729.9

申请日：2021-06-24

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 张学君 , 张震 , 王晗 , 李鹏 , 刘建 , 石瑾 , 刘睿霖 , 颜永红

IPC: G06F16/3329 , G06F16/334 , G06F18/214 , G06N3/02

Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置，包括：获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签；复制语言模型得到教师语言模型，将语言模型作为学生语言模型；将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签；将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一预测文本、第一预测结果、第二预测文本和第二预测结果，对学生语言模型进行训练。根据本申请实施例，能够解决相关技术中存储资源占用大的问题。

20.

发明公开
语言模型的训练方法、NLP任务处理方法及装置有权

公开(公告)号：CN113420123A

公开(公告)日：2021-09-21

申请号：CN202110705729.9

申请日：2021-06-24

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 张学君 , 张震 , 王晗 , 李鹏 , 刘建 , 石瑾 , 刘睿霖 , 颜永红

IPC: G06F16/33 , G06F16/332 , G06K9/62 , G06N3/02

Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置，包括：获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签；复制语言模型得到教师语言模型，将语言模型作为学生语言模型；将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签；将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一预测文本、第一预测结果、第二预测文本和第二预测结果，对学生语言模型进行训练。根据本申请实施例，能够解决相关技术中存储资源占用大的问题。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification