-
公开(公告)号:CN111966810B
公开(公告)日:2021-03-09
申请号:CN202010910552.1
申请日:2020-09-02
Applicant: 中国矿业大学(北京)
IPC: G06F16/332 , G06F16/338
Abstract: 本发明公开了一种用于问答系统的问答对排序方法,涉及自然语言处理领域。该方法包括以下步骤:针对给定问题检索相关文档,并初步筛选出大概率具有所需回答的文档;将得到的文档按段落拆分为N个片段,分别放在给定问题的后边并向量化表示,得到N个向量化的问题‑片段对,N为整数;将N个向量化表示的问题‑片段对编码为N个统一大小的单个向量;对得到的N个统一大小的单个向量进行分类,得到问题‑片段对中“回答”是该“问题”的相关回答的概率,并进行排序;通过置信区间筛选出相关性较高的片段,作为最终答案。本发明可用于问答系统的问答对的准确排序。
-
公开(公告)号:CN111966810A
公开(公告)日:2020-11-20
申请号:CN202010910552.1
申请日:2020-09-02
Applicant: 中国矿业大学(北京)
IPC: G06F16/332 , G06F16/338
Abstract: 本发明公开了一种用于问答系统的问答对排序方法,涉及自然语言处理领域。该方法包括以下步骤:针对给定问题检索相关文档,并初步筛选出大概率具有所需回答的文档;将得到的文档按段落拆分为N个片段,分别放在给定问题的后边并向量化表示,得到N个向量化的问题-片段对,N为整数;将N个向量化表示的问题-片段对编码为N个统一大小的单个向量;对得到的N个统一大小的单个向量进行分类,得到问题-片段对中“回答”是该“问题”的相关回答的概率,并进行排序;通过置信区间筛选出相关性较高的片段,作为最终答案。本发明可用于问答系统的问答对的准确排序。
-
公开(公告)号:CN119938924A
公开(公告)日:2025-05-06
申请号:CN202510020631.8
申请日:2025-01-07
Applicant: 中国矿业大学(北京)
IPC: G06F16/353 , G06F18/2415 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种基于标签关系的多标签文本分类方法,涉及自然语言处理技术领域,通过预训练模型捕获文本数据集中的文本特征,根据文本特征获得初始分类排名,得到第一标签序列S1;根据S1中的头部标签,得到第二标签序列S2;将S2与来自给定文本数据集的标签频率共现矩阵M相结合获得第三标签序列S3,由S2与S3取并集获取第四标签序列S4,通过标签频率分布信息对S4中的标签重新排序,得到频率整合的标签序列S,基于S产生一个标签特征序列#imgabs0#通过注意机制将#imgabs1#与文本建立语义关系获得最终特征fcat;采用最终特征fcat进行最终分类。本发明还公开了一种基于标签关系的多标签文本分类系统,本发明可有效缓解长尾问题,提高最终分类的准确性和相关性。
-
公开(公告)号:CN117131383A
公开(公告)日:2023-11-28
申请号:CN202310859637.5
申请日:2023-07-13
Applicant: 中国矿业大学(北京)
IPC: G06F18/22 , G06F18/214 , G06F16/33 , G06F40/30
Abstract: 一种提高双塔模型搜索精排性能的方法包括以下步骤:获取数据集,并对所述数据集进行预处理;搭建双塔模型,设定模型参数,并改进所述双塔模型的损失函数层;将所述步骤1中预处理后的数据集按照比例划分为训练集和测试集;将所述训练集应用至改进后的双塔模型,输出搜索精排结果;其中,所述数据集预处理的方法具体包括:语料库清洗,创建索引,建立答案文档,召回粗排,标签标注;所述改进双塔模型中的损失函数层的方法为在双塔模型损失函数层使用平衡所述数据集中正负样本比例的损失函数。本方法对原始双塔模型的损失函数层进行改造,使得所述双塔模型能够平衡数据集的正负样本,最大程度的提升双塔模型在精排任务中的精确度。
-
公开(公告)号:CN115759036B
公开(公告)日:2023-08-04
申请号:CN202211334721.7
申请日:2022-10-28
Applicant: 中国矿业大学(北京)
IPC: G06F40/205 , G06F40/242 , G06F40/284 , G06N3/08
Abstract: 一种基于推荐的事件检测模型的构建方法包括:对包含事件文本、触发词、事件类型的原始数据集进行预处理,构建初始的基于推荐的事件检测模型及初始参数,所述模型包括BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层;对模型进行触发词和事件类型层面的训练;一种使用基于推荐的事件检测模型进行事件检测的方法为将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中根据交互分数推荐top‑k个事件文本;本发明提供的方法是无触发词的事件检测,因此消除了因人为标注触发词产生的人工成本,同时,本发明将推荐思想应用到事件检测中,能够更加精准的完成事件检测。
-
公开(公告)号:CN115759036A
公开(公告)日:2023-03-07
申请号:CN202211334721.7
申请日:2022-10-28
Applicant: 中国矿业大学(北京)
IPC: G06F40/205 , G06F40/242 , G06F40/284 , G06N3/08
Abstract: 一种基于推荐的事件检测模型的构建方法包括:对包含事件文本、触发词、事件类型的原始数据集进行预处理,构建初始的基于推荐的事件检测模型及初始参数,所述模型包括BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层;对模型进行触发词和事件类型层面的训练;一种使用基于推荐的事件检测模型进行事件检测的方法为将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中根据交互分数推荐top‑k个事件文本;本发明提供的方法是无触发词的事件检测,因此消除了因人为标注触发词产生的人工成本,同时,本发明将推荐思想应用到事件检测中,能够更加精准的完成事件检测。
-
公开(公告)号:CN119685045A
公开(公告)日:2025-03-25
申请号:CN202411881599.4
申请日:2024-12-19
Applicant: 中国矿业大学(北京)
Abstract: 本发明提供了一种可纺中间相沥青及其制备方法和用途,属于合成沥青制备技术领域。本发明提供的可纺中间相沥青的制备方法,包括以下步骤:将沥青与含有六元环烷结构的多环化合物混合,在惰性保护气体的保护下进行聚合反应,得到可纺中间相沥青;所述聚合反应包括密闭升温阶段、恒温自升压阶段和恒温吹扫阶段。本发明采用的含有六元环烷结构的多环化合物可以提供环烷结构和加氢环境,使得原料沥青无需单独加氢处理,并抑制中间相沥青过度聚合,有利于分子的堆叠和中间相的生长。本制备方法无需添加催化剂,也无需去除供氢试剂,制备过程中也没有新的杂质生成,且该工艺简单,可以有效降低中间相沥青的制备成本。
-
-
-
-
-
-