一种基于跨度信息和局部注意力的试卷结构解析方法

    公开(公告)号:CN114429118B

    公开(公告)日:2024-11-12

    申请号:CN202210063063.6

    申请日:2022-01-19

    Abstract: 本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。

    一种面向试题知识点分类的层次化语义匹配方法

    公开(公告)号:CN114429138A

    公开(公告)日:2022-05-03

    申请号:CN202210063062.1

    申请日:2022-01-19

    Abstract: 本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。

    一种面向试题语料情感与原因句子对的抽取方法

    公开(公告)号:CN114429121A

    公开(公告)日:2022-05-03

    申请号:CN202210063061.7

    申请日:2022-01-19

    Abstract: 本发明公开了一种基于图卷积网络的试题文本中情感与原因的句子配对抽取方法,所述方法包括以下步骤:获取试题文本数据,对数据进行分句预处理;使用BERT预训练语言模型将句子转换成向量表示;使用全连接层网络将句子表示生成对应的配对组合表示;使用相对位置嵌入向量增强配对组合表示向量;对句子向量表示使用平均池化得到文档表示;使用图卷积网络对情感句子、原因句子、配对组合和文档四种表示进行编码交互;最后使用多层感知机模型预测配对组合是否成立。本发明在建模配对组合时充分考虑了配对组合中两个句子之间的因果关系,能够有效避免错误配对组合被预测成立的情况,从而提高预测的准确率。

    一种面向试题知识点分类的层次化语义匹配方法

    公开(公告)号:CN114429138B

    公开(公告)日:2024-09-06

    申请号:CN202210063062.1

    申请日:2022-01-19

    Abstract: 本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。

    基于深度解耦框架的图文编码方法

    公开(公告)号:CN114398856B

    公开(公告)日:2024-08-30

    申请号:CN202210063065.5

    申请日:2022-01-19

    Abstract: 本发明公开了一种基于深度解耦框架的图文编码方法,步骤如下:获取待进行编码的数据,分离出每个样本的图像数据和对应的文本数据;将所述图像输入预先训练的图像编解码模型,对所述图像进行编码,得到图像向量;将对应的文本数据输入预先训练的文本编解码模型,对文本数据进行编码,得到文本向量;将图像向量和文本向量进行相加,得到一个具有公共特征的向量;并根据重构损失,一致性损失和正交损失构造总体损失函数,从而将公共特征向量解耦出图像特有特征向量和文本特有特征向量;最终,将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码。通过本发明,可同时编码图像数据和其对应的文本数据,得到高质量的图文编码表示。

    一种基于跨度信息和局部注意力的试卷结构解析方法

    公开(公告)号:CN114429118A

    公开(公告)日:2022-05-03

    申请号:CN202210063063.6

    申请日:2022-01-19

    Abstract: 本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。

    基于深度解耦框架的图文编码方法

    公开(公告)号:CN114398856A

    公开(公告)日:2022-04-26

    申请号:CN202210063065.5

    申请日:2022-01-19

    Abstract: 本发明公开了一种基于深度解耦框架的图文编码方法,步骤如下:获取待进行编码的数据,分离出每个样本的图像数据和对应的文本数据;将所述图像输入预先训练的图像编解码模型,对所述图像进行编码,得到图像向量;将对应的文本数据输入预先训练的文本编解码模型,对文本数据进行编码,得到文本向量;将图像向量和文本向量进行结合,得到一个具有公共特征的向量;并通过该公共特征向量解耦出图像特有特征向量和文本特有特征向量;最终,将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码。通过本发明,可同时编码图像数据和其对应的文本数据,得到高质量的图文编码表示。

    面向题库建设的高效文档版面分析方法、系统、设备及介质

    公开(公告)号:CN119992579A

    公开(公告)日:2025-05-13

    申请号:CN202510113074.4

    申请日:2025-01-23

    Abstract: 本发明公开了一种面向题库建设的高效文档版面分析方法、系统、设备及介质,适用于题库建设,分析方法步骤如下:扫描不同学科试卷、教材配套习题、书籍的文档图像,并预处理得到无倾斜的扫描文档图像;标注扫描文档图像中各元素的相对位置和类别标签得到文档数据集;采用文档数据集对文档版面目标检测模型进行训练;将待检测的图像输入到经过训练的文档版面目标检测模型中,检测包括题目、图形和表格在内的前景内容,并输出版面元素的识别结果。本发明在提升前景内容检测精度的同时,提高了文档版面目标检测模型的推理速度,实现了对不同学科试卷和教材习题中的各类元素的准确识别,为题库建设等应用提供了高效的解决方案。

    基于图编码的学科知识图谱复杂查询方法、系统、设备和介质

    公开(公告)号:CN117807192B

    公开(公告)日:2024-05-07

    申请号:CN202410226607.5

    申请日:2024-02-29

    Abstract: 本发明涉及一种基于图编码的学科知识图谱复杂查询方法、系统、设备和介质,查询方法步骤如下:预处理学科知识图谱复杂查询数据集;初始化复杂查询的查询图中所有节点和边的向量表示,并设置迭代次数L;对查询图执行逻辑消息传递操作,每个节点得到对应的逻辑消息集合;将节点及该节点对应的逻辑消息集合输入注意力聚合器得到节点的更新向量表示;重复执行前两个步骤L次,得到所有节点向量表示经过L次更新的查询图;基于查询图中自由变量节点的向量表示使用NCE损失函数优化注意力聚合器和相关参数。该发明提出的注意力聚合器能够捕获输入向量集合各个元素之间的依赖关系并动态衡量不同元素的重要性,从而获得更优的节点聚合向量表示。

    一种答题卡图像裁切方法、装置、设备及介质

    公开(公告)号:CN117953501A

    公开(公告)日:2024-04-30

    申请号:CN202211271416.8

    申请日:2022-10-18

    Abstract: 本发明公开了一种答题卡图像裁切方法、装置、设备及介质,方法包括:获取待裁切的答题卡图像;根据设置在答题卡的边界处的若干定位点对所述答题卡图像进行校正,得到所述答题卡图像的有效区域,其中,所述有效区域至少包括答题区域和位于所述答题区域侧边的题号区域,所述题号区域包括纵向排列的各组题号单元;获取每一组所述题号单元的坐标;根据所述坐标识别每一组所述题号单元内填写的手写题号;对所述手写题号对应的答题区域及题号区域进行裁切。采用本发明实施例能够快速划分答题区域,提高阅卷效率。

Patent Agency Ranking