-
公开(公告)号:CN116578684A
公开(公告)日:2023-08-11
申请号:CN202310587486.2
申请日:2023-05-23
Applicant: 中国电信股份有限公司北京研究院 , 中国电信股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/289 , G06F40/295 , G06N3/0442 , G06N3/08
Abstract: 本公开提供了一种基于知识图谱的问答方法、装置以及相关设备,涉及自然语言处理技术领域。该方法包括:获取问题文本;对问题文本进行处理,得到问题文本中每个语句的语句向量;将每个语句的语句向量与知识图谱向量模型进行匹配,得到每个语句对应的一个或多个实体向量,其中,知识图谱向量模型为对预先构建的实体关系知识图谱中实体和实体之间关系进行向量化得到的模型;根据每个语句向量与对应的实体向量,生成每个语句向量对应的联合向量;将问题文本中每个语句对应联合向量输入到预先训练好的问答模型中,输出问题文本对应的答案文本。本公开能够在一定程度上克服由于相关技术中自然语言问题与知识图谱中的实体缺乏编码信息交互的问题。
-
公开(公告)号:CN117076617A
公开(公告)日:2023-11-17
申请号:CN202310593698.1
申请日:2023-05-23
Applicant: 中国电信股份有限公司北京研究院 , 中国电信股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种知识图谱问答方法、装置及相关设备,包括:定义图神经网络的实体向量和关系向量;将问题序列嵌入到图神经网络中进行预训练;对问题序列定义约束条件;对问题序列进行关系向量匹配得到关系向量序列;根据约束条件依次筛选关系向量序列对应的实体向量生成检索图;以及根据检索图输出问题序列的答案。本公开方法同时解决了多跳和多约束类型的知识图谱问题,极大地提高了检索效率,取得了极好的效果。
-
公开(公告)号:CN115481237A
公开(公告)日:2022-12-16
申请号:CN202211198465.3
申请日:2022-09-29
Applicant: 中国电信股份有限公司
IPC: G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本公开提供了一种文档的推荐方法及装置,涉及自然语言处理技术领域,所述方法包括:获取多个待推荐文档与基准文档关于第一组对象的相似度,所述第一组对象包括标题、摘要和正文中的多种对象;将所述多个待推荐文档分别按照所述第一组对象中的每种对象进行聚类以得到对应的聚类结果;根据所述第一组对象中的每种对象的相似度和对应的聚类结果,推荐所述多个待推荐文档。
-
公开(公告)号:CN115357701A
公开(公告)日:2022-11-18
申请号:CN202211007481.X
申请日:2022-08-22
Applicant: 中国电信股份有限公司
IPC: G06F16/332 , G06F40/295 , G06F16/24 , G06F16/35
Abstract: 本公开属于自然语言处理技术领域,涉及一种知识库问答方法及装置、存储介质、电子设备。该方法包括:获取问题语句和数据库,并利用改进命名实体识别模型识别问题语句中的第一实体类别和第一命名实体;利用匹配模型识别问题语句中的第二实体类别和第二命名实体,并对第一实体类别和第二实体类别进行融合得到目标实体类别;对第一命名实体和第二命名实体进行融合得到目标命名实体,并根据目标实体类别和目标命名实体在数据库中搜索问题语句的答案语句。本公开通过一个模型实现了意图分类和命名实体识别,简化了处理流程,提升了改进命名实体识别模型的准确率,提升了意图分类的准确率,优化了分类效果,提升了答案搜索准确率,减少了答案筛选时间。
-
公开(公告)号:CN115905515A
公开(公告)日:2023-04-04
申请号:CN202110901104.X
申请日:2021-08-06
Applicant: 中国电信股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F18/241 , G06N3/088
Abstract: 本公开涉及非监督重要性提取的长文本分类方法和装置,该方法包括:文本分类模型预训练步骤,对长文本进行数据预处理,并训练出预训练的文本分类模型;标记初始化步骤,对长文本进行分句,对各个分句用预训练模型进行分类以得到初始化标签并区分为相关/不相关分句;分句标记更新步骤,在相关分句组的长度小于模型的最大长度时,通过进行重要度打分来追加新的相关分句以进行随机拼接,直到达到最大长度,从而循环更新验证以训练模型;以及下游模型分类步骤,将整体分句组中的相关分句输入训练出的文本分类模型进行长文本分类,以输出最终分类标签。
-
公开(公告)号:CN115438164A
公开(公告)日:2022-12-06
申请号:CN202211116993.X
申请日:2022-09-14
Applicant: 中国电信股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/901 , G06K9/62
Abstract: 本发明提供了问答方法、系统、设备及存储介质,通过从问题的主题实体开始沿着关系图进行多步关系跳转,其中,在每一步关系跳转过程中,将问题信息与关系进行相似度匹配以得到关系分数,基于关系分数获得关系所指向子节点的实体得分,基于多步关系跳转得到由实体构成的路径,并对路径中的实体得分进行加权计算,得到路径得分,在路径得分满足设定条件的情况下,将路径的叶子节点作为答案实体并向用户响应。本实施例提出充分利用关系图的关系信息进行答案实体的多跳推理。其中,关系图不受知识图谱的结构化知识以及文本形式的非结构化知识的差异化限制,从而能够利用多信息来源作为知识增强,以提升对答案实体的预测精度。
-
公开(公告)号:CN114064887A
公开(公告)日:2022-02-18
申请号:CN202010789559.2
申请日:2020-08-07
Applicant: 中国电信股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本公开涉及数据增强方法和装置。提供了一种用于增强语料库中的数据对象的数据增强方法,包括:针对所述语料库中的至少一部分数据对象中的每个数据对象:将所述数据对象分解成多个词语;计算所述多个词语中的每个词语的重要性得分,所述重要性得分表示该词语是所述数据对象的主题词的概率;基于所述重要性得分,按特定概率对所述多个词语进行抽取,使得所述重要性得分越高的词语被抽取到的概率越小;以及针对抽取到的每个词语进行替换、删除以及插入中的至少一个的处理,从而获得所述数据对象的增强数据对象。
-
公开(公告)号:CN115905514A
公开(公告)日:2023-04-04
申请号:CN202110900701.0
申请日:2021-08-06
Applicant: 中国电信股份有限公司
IPC: G06F16/35 , G06F18/214
Abstract: 本公开涉及一种数据增强方法和装置、计算机装置和存储介质。该数据增强方法包括:基于序列到序列生成模型,进行文本生成;对生成数据进行过滤,过滤质量低于预定阈值的生成数据。本公开提出了一种过滤模型,可以针对生成的样本,进行分类过滤,由此可以去掉噪声很大、质量不够好的样本。
-
公开(公告)号:CN115545028A
公开(公告)日:2022-12-30
申请号:CN202211156341.9
申请日:2022-09-22
Applicant: 中国电信股份有限公司
IPC: G06F40/295 , G06F16/35
Abstract: 本公开提供了一种文本处理方法、装置及计算机可读存储介质,涉及自然语言处理领域,所述方法包括:获取自然语言的原始文本;利用提示学习模板对所述原始文本处理以得到目标文本,所述目标文本包括所述原始文本和提示文本,所述提示文本用于提示从所述原始文本中识别实体和实体类型、以及识别所述原始文本的文本类型;将所述目标文本输入至文本处理模型,以得到处理结果,所述处理结果包括所述原始文本中的实体和实体类型、以及所述原始文本的文本类型。
-
公开(公告)号:CN115391527A
公开(公告)日:2022-11-25
申请号:CN202211013807.X
申请日:2022-08-23
Applicant: 中国电信股份有限公司
IPC: G06F16/35 , G06F16/332
Abstract: 本公开提供了一种基于提示学习的意图识别方法、问答方法及装置,属于自然语言处理技术领域。该方法对接收到的第一查询文本进行重构,根据提示学习范式添加第一提示文本获得第二查询文本,并将其输入预训练语言模型中,以使预训练语言模型就第一提示文本对第一查询本文预测的第一预测意图,其中,提示学习范式用于提供第一提示文本,以提示预训练语言模型预测第一查询文本表示的查询意图。此时,无需对第一查询文本进行分词处理,避免了分词对知识结构的破坏,能够更充分地利用预训练语言模型的信息,提高分类准确率;采用重构的第一查询文本,将下游分类任务转换成预测任务,提高预训练语言模型与下游任务的适配度,进而提高了意图识别准确率。
-
-
-
-
-
-
-
-
-