一种结合知识挖掘的大模型复杂事件预测方法、装置、电子设备及存储介质

    公开(公告)号:CN118227735A

    公开(公告)日:2024-06-21

    申请号:CN202410333410.1

    申请日:2024-03-22

    Abstract: 本发明公开了一种结合知识挖掘的大模型复杂事件预测方法、装置、电子设备及存储介质,该方法是由创建一个开放域标签学习数据集,其中包括信息标签的概念定义和示例数据;将开放域标签学习数据集和多种信息抽取任务数据集进行训练;构建一个反向推理样例数据集,基于历史事件数据构造反向推理提示,大模型基于反向推理提示生成由已发生事件演化至结果的推理分析;大模型运用单步事件预测指令及背景知识来预测事件的下一步演化或结束;进行多步多链路事件预测,迭代应用单步预测来预测事件可能分支出的多个演化路径;该发明通过构建的反向推理样例数据集和知识库,在进行事件预测时,检索相似推理样例与已发生事件相关背景知识,使大模型在有可参考相似推理样例跟有相关背景知识条件下进行可靠的复杂事件预测。

    基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备及存储介质

    公开(公告)号:CN116956942A

    公开(公告)日:2023-10-27

    申请号:CN202310547236.6

    申请日:2023-05-16

    Abstract: 本发明涉及基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备以及存储介质,该方法获取多领域对话状态追踪数据集,对数据集进行处理,构建对话状态追踪数据集;提取对话上下文和槽位的语义信息,将其编码为高维特征词向量;通过新的融合机制融合对话上下文和槽位词向量,得到融合槽语义的对话上下文词向量和句子向量;根据槽位在上一轮是否被系统提和槽位的槽值在上一轮是否进行填充,构建两个辅助特征,并将其作为先验融合到融合槽语义的对话上下文句子向量,得到增强的对话上下文句子向量;将融合槽语义的对话上下文词向量和增强句子向量输入到槽值提取层提取槽值,进行对话状态更新。本发明通过设计一种新的融合机制,可以有效适应对话状态追踪任务,不仅提高了对话状态追踪的准确率,而且槽位共享的设计提高模型的扩展能力。

    面向新闻的热点话题检测方法、装置及设备

    公开(公告)号:CN113157857B

    公开(公告)日:2023-06-02

    申请号:CN202110271853.9

    申请日:2021-03-13

    Abstract: 本发明公开了一种面向新闻的热点话题检测方法、装置及设备,所述方法包括:针对预处理技术;将信息流划分到不同的时间窗口,通过提取标题特征和正文特征表达文本或话题;对同一时间窗口内的文本,使用凝聚层次聚类建立时间无关的话题检测模型,实现微聚类。对不同时间窗口内的话题使用单遍法建立跨时间窗口的话题检测模型,实现最终的话题聚类;最后,利用TextRank算法,通过先计算单文本的简要表达,再在单文本表达基础上进一步使用TextRank算法得到话题表达,实现对新闻自动归类,展现的目的。

    融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质

    公开(公告)号:CN115774998A

    公开(公告)日:2023-03-10

    申请号:CN202211657931.X

    申请日:2022-12-22

    Abstract: 本发明公开了一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质,涉及人工智能、自然语言处理、文本建模等技术领域。具体实现方案为:构建源语言‑目标语言平行语料数据集,通过无监督词对齐算法对平行语句构建词对齐矩阵;在Transformer结构的跨语言预训练模型的每个子层之间插入词对齐适配器,通过掩码语言建模与词对齐建模联合训练,实现跨语言表示特征的语义对齐;将所述词对齐适配器模块生成的跨语言表示特征输入至任务适配器,从而实现多种跨语言下游任务。解决了现有技术中低资源小语种难以形成词对齐映射导致的跨语言表示效果较差的问题。根据本申请的技术提高了面向低资源小语种的跨语言文本表示及多种跨语言下游任务的性能。

    面向资源缺乏语言的实体链接系统

    公开(公告)号:CN104933039A

    公开(公告)日:2015-09-23

    申请号:CN201510304943.8

    申请日:2015-06-04

    Abstract: 本发明涉及一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。通过本发明所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。

    基于一致性度量的文本隐喻检测方法、装置、电子设备及存储介质

    公开(公告)号:CN118035450A

    公开(公告)日:2024-05-14

    申请号:CN202410233427.X

    申请日:2024-03-01

    Abstract: 本发明公开了一种基于一致性度量的文本隐喻检测方法、装置、电子设备及存储介质,该方法将预处理后文本数据分别输入至待检测文本编码器和目标词基本用法编码器;从待检测文本编码器中提取目标词语境特征和文本语境特征、目标词基本用法编码器中提取目标词基本用法特征和词性特征;通过选择偏好违背程序、隐喻识别程序和语义对比程序分别度量目标词语境特征和文本语境特征一致性、目标词语境特征和目标词基本用法特征一致性、文本语境特征和目标词基本用法特征一致性;最后将一致性度量结果与POS向量拼接输入至分类器以检测隐喻;该发明通过一致性度量及增加语义对比程序模块,更加有效利用隐喻特征信息,提高了文本隐喻检测准确率。

    一种小样本意图识别方法、装置、设备及存储介质

    公开(公告)号:CN113723111B

    公开(公告)日:2023-11-14

    申请号:CN202111034749.4

    申请日:2021-09-04

    Abstract: 本发明公开了一种小样本意图识别方法、装置、设备以及存储介质,该方法获取意图识别数据集,对数据集进行处理,构建小样本意图识别数据集;提取句子的语义信息,将句子编码为高维特征向量;利用辅助类中样本之间的多样性特征,在高维空间中生成未知样本的多样性特征;将生成的多样性特征与原句子向量进行融合,获取句子的增强特征向量,进一步得到目标意图的原型向量表示;计算查询句子的增强特征向量与目标类别的原型向量之间的相似度,实现对查询句子的分类。本发明增强了模型对未知意图样本的特征向量表示,可以有效适应小样本场景下的意图识别任务,提高了小样本意图识别的准确率。

    多特征融合的文本相似性度量系统

    公开(公告)号:CN104699763B

    公开(公告)日:2017-10-17

    申请号:CN201510072955.2

    申请日:2015-02-11

    Abstract: 本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统,该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量,其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题,以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤:对训练文本进行分词、去停用词等预处理;将处理好的训练文本语料训练成词向量模型;对于输入的待计算文本对,分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性,并通过加权求和,得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度,从而满足智能信息处理需求。

    大数据背景下基于动态可配置规则的数据清洗框架

    公开(公告)号:CN105930523A

    公开(公告)日:2016-09-07

    申请号:CN201610355962.8

    申请日:2016-05-25

    CPC classification number: G06F17/30303

    Abstract: 本发明属于大数据处理和分析领域,是一种用于大数据环境下的基于动态可配置规则的数据清洗框架。本发明方法是一种跨领域的、可重用的、可配置的、将数据转换和数据检查以及数据修复三者合为一体的新方法,从而提高了清洗过程的描述能力和执行效率。通过多个真实数据集的实验结果表明该系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域,并在多个项目中予以实施,进一步验证了该方法在真实场景中的有效作用。

Patent Agency Ranking