-
公开(公告)号:CN115618011A
公开(公告)日:2023-01-17
申请号:CN202211193891.8
申请日:2022-09-28
Applicant: 中国科学院自动化研究所
IPC: G06F16/36 , G06F16/332 , G06N5/02 , G06N3/042 , G06N3/048
Abstract: 本发明提供一种知识问答方法、装置、电子设备和可读存储介质,涉及计算机技术领域,该方法包括:基于获取到的逻辑查询语句构建计算图,并获取计算图中每一个节点的预测节点表示;计算图包括多个节点的节点信息以及相邻节点之间的关联关系,节点信息包括节点深度;针对计算图中的每一个节点,基于节点的前驱节点和后继节点的节点表示对节点的预测节点表示进行校准,得到节点的校准节点表示;基于计算图中节点的校准节点表示以及预设知识图谱中每一个实体的实体表示确定目标实体,并将目标实体作为逻辑查询语句的答案输出,解决了现有技术中如何更好地从知识图谱中检测出逻辑查询语句的答案的技术问题。
-
公开(公告)号:CN115422921A
公开(公告)日:2022-12-02
申请号:CN202211066401.8
申请日:2022-08-31
Applicant: 中国科学院自动化研究所
IPC: G06F40/284 , G06F40/247 , G06F40/216 , G06N5/04
Abstract: 本发明实施例提供一种归因解释方法的稳定性的确定方法、装置和设备,该方法包括:获取样本文本;对样本文本进行文本对抗攻击,得到攻击后的样本文本;分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释,得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值;基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值,确定各个归因解释方法对应的归因值排序发生变化的单词数量;根据归因值排序发生变化的单词数量,确定各个归因解释方法的稳定性。本发明实施例的方法为归因解释方法的衡量和选择提供了合理准确的评价标准,实现了对各个归因解释方法优劣的准确衡量。
-
公开(公告)号:CN115309858A
公开(公告)日:2022-11-08
申请号:CN202210754115.4
申请日:2022-06-28
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F16/36 , G06F40/216 , G06F40/237 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种算术表达式的生成方法、装置、设备、介质及产品,该方法包括:获取目标问题对应的表格和文本;表格和文本用于确定目标问题的算术表达式;基于表格、文本和目标问题,确定目标问题的异质图;基于图处理模型,确定异质图的目标嵌入矩阵;通过树解码器,对目标嵌入矩阵和预设符号字典进行处理,得到目标问题的算术表达式。本发明提供的算术表达式的生成方法、装置、设备、介质及产品用于提高算术表达式的准确率。
-
公开(公告)号:CN113761925A
公开(公告)日:2021-12-07
申请号:CN202110837136.8
申请日:2021-07-23
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/216 , G06K9/62
Abstract: 本发明提供一种基于噪声感知机制的命名实体识别方法、装置及设备,其中方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。本发明提供的方法、装置、电子设备和存储介质,能够通过获取待识别文本的识别结果,根据识别结果对待识别文本进行命名实体类型判定,克服了命名实体识别数据集中正确样本和噪声样本难以区分的问题,实现了待识别文本的命名实体类型的精确识别。
-
公开(公告)号:CN110941962A
公开(公告)日:2020-03-31
申请号:CN201911173056.6
申请日:2019-11-26
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/30 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于图网络的答案句选择方法和装置。为了解决现有技术未考虑候选句之间的关联度导致答案选择错误的问题,本发明提出一种基于图网络的答案句选择方法,该方法包括对预先获取的多个第一句子,分别获取对应的第一向量;根据第一句子和第一向量构建多个第一句子的关系图;基于关系图以及第一向量,通过图网络获取第二向量,其中,图网络基于神经网络构建,第二向量为多个第一句子的上下文信息融合后的向量;基于第二向量,通过问答句预测器从第一句子中选择答案句,其中,问答句预测器用于获取第二向量对应的第一句子的预测分数。利用本发明的方法能够提高从候选句中选择正确答案的概率。
-
公开(公告)号:CN110941955A
公开(公告)日:2020-03-31
申请号:CN201911167293.1
申请日:2019-11-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种跨语言事件分类方法和装置。为了解决现有技术极大依赖高质量的机器翻译系统或者大规模的平行语料的问题,本发明提出一种跨语言事件分类方法,该方法包括从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类。利用本发明的方法和装置能够提高对事件识别的准确率。
-
公开(公告)号:CN104820694B
公开(公告)日:2019-03-15
申请号:CN201510208978.1
申请日:2015-04-28
Applicant: 中国科学院自动化研究所
IPC: G06F16/242 , G06F16/25
Abstract: 本发明提供一种基于多知识库和整数线性规划ILP的自动问答方法和系统,所述方法包括:创建用于索引多个知识库的实体和/或关系的资源字典;在所述资源字典中查询并由自然语句的多个文本片段映射到的多个实体和/或多个关系构成多个候选资源;对各候选资源执行转换,获得对应的多个模板;将所述各文本片段、映射、候选资源、转换、和模板组合成消歧图;根据ILP对所述消歧图进行联合推理、选取至少一个待查询模板来生成规范查询语句。本发明所述方法能够对自然语句在多知识库中进行较精确的查询。
-
公开(公告)号:CN105528349B
公开(公告)日:2019-02-01
申请号:CN201410513189.4
申请日:2014-09-29
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G06F16/332
Abstract: 本发明实施例提供一种知识库中问句解析的方法,包括:接收用户输入的问句;对问句进行短语检测确定候选短语;将候选短语映射到知识库中的资源项;进一步确定观察谓词的值和可能的问句分析空间。对可能的问句分析空间中的每一个命题集合,根据观察谓词和隐含谓词的值进行不确定性推理计算置信度,并获取置信度满足预设条件的命题集合中的真命题的组合;根据所述真命题的组合,生成形式化查询语句。本发明实施例利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问句转化为形式化查询语句。并且,不确定性推理的方法能够应用于任何领域的知识库,具有领域扩展性,这样无需针对知识库人工地配置转换规则。
-
公开(公告)号:CN107688583A
公开(公告)日:2018-02-13
申请号:CN201610640647.X
申请日:2016-08-05
Applicant: 株式会社NTT都科摩 , 中国科学院自动化研究所
Abstract: 本发明涉及一种创建用于自然语言处理装置的训练数据的方法和设备,以及利用该训练数据的自然语言处理装置。一种创建用于自然语言处理系统的训练数据的方法,包括:接收创建所述训练数据的请求;获得用于创建所述训练数据的自然语言语料库输入;确定所述训练数据所需的分包参数;基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。
-
公开(公告)号:CN104572892B
公开(公告)日:2017-10-03
申请号:CN201410817856.8
申请日:2014-12-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于循环卷积网络的文本分类方法,包括以下步骤:步骤1,利用双向循环网络对所有词进行上下文向量的表示;步骤2,将上下文向量及当前词的词向量组合成当前词的表示;步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;步骤4,利用文本表示进行文本分类。该方法能够较多地保留文本中的词序信息,捕捉长距离的文本依赖关系,精确刻画词的语义,并通过最大池化技术找到对文本分类影响最大的词和短语。有效地提高了文本分类的准确率。经过试验证明,本方法在多个文本分类数据集上平均提升1%。
-
-
-
-
-
-
-
-
-