-
公开(公告)号:CN114626372B
公开(公告)日:2024-06-04
申请号:CN202210195759.4
申请日:2022-02-25
Applicant: 华南理工大学 , 广州启辰电子科技有限公司
IPC: G06F40/284 , G06F40/211 , G06F40/30 , G06F18/22 , G06F18/2415 , G06N3/0455 , G06N3/09 , G06Q50/00
Abstract: 本发明涉及一种基于扰动改良的自注意力机制社交网络文本情感分析方法,用于在网络中分析文本表达的情感。步骤如下:将网络文本数据中的句子用分词工具切分为词,并用词嵌入矩阵将每个词转化为词向量;将词向量输入预训练语言模型(BERT‑base)中得到每个词的隐层状态(特征表示);将词的隐层状态输入分类器获得句子的分类概率分布;将每个词的隐层状态和句子的分类概率分布进行扰动改良,得到注意力监督信息;用注意力监督信息二次训练预训练语言模型;将词向量输入改良训练后的语言模型得到隐层状态,并用分类器输出最终分类结果。
-
公开(公告)号:CN114647778A
公开(公告)日:2022-06-21
申请号:CN202210218635.3
申请日:2022-03-04
Applicant: 华南理工大学 , 广州启辰电子科技有限公司
IPC: G06F16/9535 , G06K9/62 , G06N3/04 , G06V10/762
Abstract: 本发明公开了一种基于深度聚类算法的电影个性化序列推荐方法,实现个性化的电影推荐。过程如下:获取电影数据集,分离出所需数据;通过深度聚类从所获得的数据中挖掘用户的高层次意图,形成融合用户高层次意图的交互序列;通过对所获得的数据进行用户静态特征的挖掘,并与用户观影序列结合,形成用户特征动态序列;将融合用户高层次意图的交互序列与用户特征动态序列结合输入门控循环单元,得到融合的序列信息;用融合的序列信息计算出所有候选项目与此序列的匹配得分,并从中选取排名前K个项目作为推荐结果。本发明可以有效捕捉到用户在观看电影时较高层次的意图特征,并通过聚类的分布来缓解长尾问题,最终生成个性化的电影推荐。
-
公开(公告)号:CN114429138A
公开(公告)日:2022-05-03
申请号:CN202210063062.1
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/30 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。
-
公开(公告)号:CN114429121A
公开(公告)日:2022-05-03
申请号:CN202210063061.7
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于图卷积网络的试题文本中情感与原因的句子配对抽取方法,所述方法包括以下步骤:获取试题文本数据,对数据进行分句预处理;使用BERT预训练语言模型将句子转换成向量表示;使用全连接层网络将句子表示生成对应的配对组合表示;使用相对位置嵌入向量增强配对组合表示向量;对句子向量表示使用平均池化得到文档表示;使用图卷积网络对情感句子、原因句子、配对组合和文档四种表示进行编码交互;最后使用多层感知机模型预测配对组合是否成立。本发明在建模配对组合时充分考虑了配对组合中两个句子之间的因果关系,能够有效避免错误配对组合被预测成立的情况,从而提高预测的准确率。
-
公开(公告)号:CN114429138B
公开(公告)日:2024-09-06
申请号:CN202210063062.1
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/30 , G06F40/211 , G06N3/044 , G06N3/042 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。
-
公开(公告)号:CN114398856B
公开(公告)日:2024-08-30
申请号:CN202210063065.5
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/126 , G06T9/00
Abstract: 本发明公开了一种基于深度解耦框架的图文编码方法,步骤如下:获取待进行编码的数据,分离出每个样本的图像数据和对应的文本数据;将所述图像输入预先训练的图像编解码模型,对所述图像进行编码,得到图像向量;将对应的文本数据输入预先训练的文本编解码模型,对文本数据进行编码,得到文本向量;将图像向量和文本向量进行相加,得到一个具有公共特征的向量;并根据重构损失,一致性损失和正交损失构造总体损失函数,从而将公共特征向量解耦出图像特有特征向量和文本特有特征向量;最终,将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码。通过本发明,可同时编码图像数据和其对应的文本数据,得到高质量的图文编码表示。
-
公开(公告)号:CN114429118A
公开(公告)日:2022-05-03
申请号:CN202210063063.6
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/205 , G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。
-
公开(公告)号:CN114398856A
公开(公告)日:2022-04-26
申请号:CN202210063065.5
申请日:2022-01-19
Applicant: 广州启辰电子科技有限公司 , 华南理工大学
IPC: G06F40/126 , G06T9/00
Abstract: 本发明公开了一种基于深度解耦框架的图文编码方法,步骤如下:获取待进行编码的数据,分离出每个样本的图像数据和对应的文本数据;将所述图像输入预先训练的图像编解码模型,对所述图像进行编码,得到图像向量;将对应的文本数据输入预先训练的文本编解码模型,对文本数据进行编码,得到文本向量;将图像向量和文本向量进行结合,得到一个具有公共特征的向量;并通过该公共特征向量解耦出图像特有特征向量和文本特有特征向量;最终,将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码。通过本发明,可同时编码图像数据和其对应的文本数据,得到高质量的图文编码表示。
-
公开(公告)号:CN114580415B
公开(公告)日:2024-03-22
申请号:CN202210180038.6
申请日:2022-02-25
Applicant: 华南理工大学 , 广州启辰电子科技有限公司
IPC: G06F40/295 , G06F40/30 , G06F18/241 , G06N3/0455 , G06N3/096 , G06Q50/20
Abstract: 本发明公开了一种面向教育考试的跨域图匹配实体识别方法,步骤如下:获取源域命名实体识别数据集,使用源域命名实体识别数据集训练深度神经网络模型得到源域模型;获取带有实体类别标注的教育考试文本数据;利用训练好的源域模型构建目标域模型;把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图;利用教育考试文本数据、源域图和目标域图训练目标域模型,训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势,把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中,提升了对教育考试文本实体识别的准确率。
-
公开(公告)号:CN114580415A
公开(公告)日:2022-06-03
申请号:CN202210180038.6
申请日:2022-02-25
Applicant: 华南理工大学 , 广州启辰电子科技有限公司
Abstract: 本发明公开了一种面向教育考试的跨域图匹配实体识别方法,步骤如下:获取源域命名实体识别数据集,使用源域命名实体识别数据集训练深度神经网络模型得到源域模型;获取带有实体类别标注的教育考试文本数据;利用训练好的源域模型构建目标域模型;把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图;利用教育考试文本数据、源域图和目标域图训练目标域模型,训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势,把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中,提升了对教育考试文本实体识别的准确率。
-
-
-
-
-
-
-
-
-