-
公开(公告)号:CN113918952A
公开(公告)日:2022-01-11
申请号:CN202111009625.0
申请日:2021-08-31
Applicant: 暨南大学
Abstract: 本发明公开了C或C++代码漏洞检测方法、系统、计算机及存储介质,方法包括:S1、将包括训练集和待检集的C或C++代码集合进行预处理,使得该C或C++代码集合转化为符号表示;S2、训练集的每一部分代码的符号表示根据代码自身属性打上标签,若代码存在漏洞,则标签置为1,否则置为0;S3、通过打上标签的训练集训练漏洞检测模型;S4、将已转化为符号表示的C或C++代码集合中的待检集作为输入,通过已完成训练的漏洞检测模型进行检测,并输出漏洞检测结果。本发明采用深度学习和自然语言处理结合的方式进行源代码漏洞检测,相比传统的静态分析方法,不需要人工专家手工定义匹配规则,显著降低漏洞误报率和漏报率。
-
公开(公告)号:CN113742482A
公开(公告)日:2021-12-03
申请号:CN202110813433.9
申请日:2021-07-19
Applicant: 暨南大学
Abstract: 本发明公开了基于多重词特征融合的情感分类方法、介质,包括:对训练样本集中各文本数据进行文本预处理,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;建立基于Transformer模型的Encoder网络,在Encoder网络的编码层加入词性向量层;将训练样本集中各文本数据对应字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中;进行预训练任务,得到情感分类模型;基于情感分类模型对需要进行分类的文本数据进行分类。本发明利用Transformer健壮的网络结构使得信息能够得到充分的利用,在模型编码层创新性的加入词性层,在情感分析领域,得到了很好的效果。
-
公开(公告)号:CN113254803A
公开(公告)日:2021-08-13
申请号:CN202110701053.6
申请日:2021-06-24
Applicant: 暨南大学
IPC: G06F16/9536 , G06F40/30 , G06F40/126 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明公开了一种基于多特征异质图神经网络的社交推荐方法,该方法包括下述步骤:提取社交网络用户和话题的多种属性信息进行编码;将用户编码信息和话题编码信息分别通过多层感知机得到各用户和话题的初始特征向量表示;以用户和话题作为节点建立异质图,输入异质图神经网络结合注意力机制在图中进行信息传递,更新特征向量表示;对用户特征向量进行相似度计算,选择与用户向量相似度最高的top‑k用户和top‑k话题进行推荐。本发明同时提取用户和话题的多种属性信息,并将用户和话题同时作为节点建立异质图,能更全面地挖掘社交信息,通过异质图神经网络进行信息传递及聚合,深度融合用户及其兴趣话题特征,提高了推荐准确性和用户体验。
-
公开(公告)号:CN111858932A
公开(公告)日:2020-10-30
申请号:CN202010659948.3
申请日:2020-07-10
Applicant: 暨南大学
IPC: G06F16/35 , G06F40/151 , G06F40/242 , G06N3/04
Abstract: 本发明公开了一种基于Transformer的多重特征中英文情感分类方法及系统,该方法步骤包括:对给定的文本数据进行预处理,包括划分文本、构造词典、获取数字形式的文本表示;建立模型的编码器网络:将预处理后的文本数据输入模型编码器部分的神经网络,依次经过嵌入层、多重自我注意力层、前馈层,提取并输出每个词语基于多重自我注意力机制的向量表示;建立模型的解码器网络:以编码器网络的输出作为值项和键项的输入,以文本序列的上下文向量作为查询项的唯一输入,经过解码器的多重自我注意力层和前馈层,输出文本基于自我注意力机制的向量表示。本发明以Transformer模型为基础架构,丰富了模型的特征输入中包含的信息,挖掘模型在原先应用领域之外的潜能。
-
公开(公告)号:CN120012771A
公开(公告)日:2025-05-16
申请号:CN202411932124.3
申请日:2024-12-26
Applicant: 暨南大学
IPC: G06F40/279 , G06F40/211 , G06F40/253 , G06F16/334
Abstract: 本发明公开了一种基于大语言模型的多语言通用词性识别方法及系统,涉及自然语言处理与词性识别的技术领域,包括:采用大语言模型作为核心基座模型,通过低秩适配技术进行高效微调,设计语言和多领域的词汇与句法分析,使用模型蒸馏将大模型的知识迁移到一个小模型,以减少模型大小和计算成本,通过设计规范化的提示词引导模型生成标准化的输出,并从中自动完成词性识别任务,最后用代码解析模型输出生成JSON格式数据,以供后续的业务系统的集成使用,确保高效支持前端展示和后端业务逻辑处理。本发明输出的词性信息可用于多种下游任务,如智能搜索、文本分类、代码解析和语法校验,为多种业务系统提供数据支持。
-
公开(公告)号:CN120011534A
公开(公告)日:2025-05-16
申请号:CN202411932523.X
申请日:2024-12-26
Applicant: 暨南大学
IPC: G06F16/334 , G06F40/194 , G06F40/279 , G06F18/214 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于大语言模型的实体消歧和遗忘方法及系统,涉及自然语言处理的实体消歧技术领域,包括;确定实体消歧数据集和遗忘数据集,构建对比学习样本并进行数据预处理;利用LLaMA3模型提取特征,添加投影层和对比学习模块;通过构建损失函数,对于每个样本,使用余弦相似度计算其特征表示与正负样本的相似度,使用对比损失来度量模型在区分正负样本的效果;基于损失值,通过反向传播更新模型参数,直到模型收敛。本发明以LLaMA3模型基础架构,基于对比学习的方法增强了模型的判别能力,同时提供了实现遗忘机制的途径。本发明为模型在自然语言处理领域的研究和应用提供新的思路。
-
公开(公告)号:CN119760235A
公开(公告)日:2025-04-04
申请号:CN202411846805.8
申请日:2024-12-16
IPC: G06F16/9535 , G06F16/9537 , G06F16/334 , G06F40/30 , G06N3/0455 , G06N5/04
Abstract: 本发明公开一种基于大语言模型Zero‑Shot的物品推荐系统排序方法,该方法包括下述步骤:构建用户历史顺序交互物品集合和顺序候选物品集合,构建大语言模型Zero‑Shot排序指令模板,生成对应的大语言模型的提示词,大语言模型通过用户历史交互顺序信息提取用户的物品喜好,并对顺序候选物品集进行排序,对大语言模型输出结果提取用户对应的排序结果Su,验证排序结果Su的完整性,利用注意力机制对带上下文的用户与物品候选集的嵌入向量进行排序,得到排序结果Au;对排序结果Su和排序结果Au的每一个物品所对应的排序结果做平均,再进行排序,得到用户的推荐结果。本发明增加大语言模型的语义信息,能够更精准地进行推荐。
-
公开(公告)号:CN118734177B
公开(公告)日:2024-12-17
申请号:CN202410722555.0
申请日:2024-06-05
Applicant: 暨南大学
IPC: G06F18/2411 , G06F18/214 , G06F18/213
Abstract: 本发明公开了一种基于大语言模型的冷启动推荐方法及系统,属于推荐系统领域,包括:构建微调训练数据集;选择预训练大语言模型,利用低秩矩阵训练的方法进行模型微调训练后,通过微调训练数据集进行迭代训练,每次迭代过程采用半监督方法判断数据质量,直到loss函数下降到设计阈值,生成目标大语言模型;基于微调训练数据集的内容数据和交互数据,通过目标大语言模型,获取内容数据对应的内容嵌入向量,以及交互数据对应的协同嵌入向量;通过前馈神经网络,将内容嵌入向量和协同嵌入向量对齐,生成物品冷启嵌入向量生成器,用于根据冷物品的内容嵌入向量,获取推荐的冷启物品嵌入向量。本发明有效地提高了在冷启动物品推荐场景下的推荐性能。
-
公开(公告)号:CN118734177A
公开(公告)日:2024-10-01
申请号:CN202410722555.0
申请日:2024-06-05
Applicant: 暨南大学
IPC: G06F18/2411 , G06F18/214 , G06F18/213
Abstract: 本发明公开了一种基于大语言模型的冷启动推荐方法及系统,属于推荐系统领域,包括:构建微调训练数据集;选择预训练大语言模型,利用低秩矩阵训练的方法进行模型微调训练后,通过微调训练数据集进行迭代训练,每次迭代过程采用半监督方法判断数据质量,直到loss函数下降到设计阈值,生成目标大语言模型;基于微调训练数据集的内容数据和交互数据,通过目标大语言模型,获取内容数据对应的内容嵌入向量,以及交互数据对应的协同嵌入向量;通过前馈神经网络,将内容嵌入向量和协同嵌入向量对齐,生成物品冷启嵌入向量生成器,用于根据冷物品的内容嵌入向量,获取推荐的冷启物品嵌入向量。本发明有效地提高了在冷启动物品推荐场景下的推荐性能。
-
公开(公告)号:CN112528174B
公开(公告)日:2024-07-26
申请号:CN202011361104.7
申请日:2020-11-27
Applicant: 暨南大学
IPC: G06F16/9537 , G06F16/36 , G06F40/295
Abstract: 本发明公开了一种基于知识图谱和多重匹配的地址修整补全方法及应用,该方法包括:采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;根据地址构成的特点,构建多种匹配规则进行匹配,采用对应匹配规则对地址进行修正和补全,匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。本发明实现对信息缺省甚至有误的地址进行正确高效规范的修整和补全。
-
-
-
-
-
-
-
-
-