C或C++代码漏洞检测方法、系统、计算机及存储介质

    公开(公告)号:CN113918952B

    公开(公告)日:2024-08-13

    申请号:CN202111009625.0

    申请日:2021-08-31

    Applicant: 暨南大学

    Abstract: 本发明公开了C或C++代码漏洞检测方法、系统、计算机及存储介质,方法包括:S1、将包括训练集和待检集的C或C++代码集合进行预处理,使得该C或C++代码集合转化为符号表示;S2、训练集的每一部分代码的符号表示根据代码自身属性打上标签,若代码存在漏洞,则标签置为1,否则置为0;S3、通过打上标签的训练集训练漏洞检测模型;S4、将已转化为符号表示的C或C++代码集合中的待检集作为输入,通过已完成训练的漏洞检测模型进行检测,并输出漏洞检测结果。本发明采用深度学习和自然语言处理结合的方式进行源代码漏洞检测,相比传统的静态分析方法,不需要人工专家手工定义匹配规则,显著降低漏洞误报率和漏报率。

    一种基于对抗训练融合BERT的微博文本情感分析方法及系统

    公开(公告)号:CN115392259B

    公开(公告)日:2023-04-07

    申请号:CN202211321734.0

    申请日:2022-10-27

    Applicant: 暨南大学

    Abstract: 本发明涉及自然语言处理的情感分析技术领域,公开了一种基于对抗训练融合BERT的微博文本情感分析方法及系统,包括:S1文本预处理步骤:读取原始微博文本数据集,进行数据扩充,得到预处理文本数据;S2预训练步骤:将预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;S3下游微调步骤:将增量预训练模型结合预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。本发明融合对抗训练和增加外部数据,提升了模型预测的精确性与鲁棒性,可以使BERT在微博情感分类领域的发挥更好的作用。

    一种基于知识蒸馏与思维链的轻量化信息抽取方法及系统

    公开(公告)号:CN120011533A

    公开(公告)日:2025-05-16

    申请号:CN202411932410.X

    申请日:2024-12-26

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于知识蒸馏与思维链的轻量化信息抽取方法及系统,涉及自然语言处理中的信息抽取技术领域,包括:首先,对领域文本进行预处理,利用少样本学习进行数据增强,生成伪数据以提高模型在特定领域的表现;随后,通过大语言模型进行微调,提取文本中的实体、关系和事件和推理中间结果等关键信息;接着,应用知识蒸馏技术,将微调后的大模型知识压缩至轻量化模型中。同时采用检索增强生成技术和思维链机制,结合实时查询外部知识库,精确地从文本中提取结构化信息,逐步完成复杂信息提取任务。本发明提升了信息抽取的准确性和模型的轻量化部署效果,适用于命名实体识别、关系抽取、事件检测和情感分析等多种任务。

    一种基于大语言模型的多语言通用词性识别方法及系统

    公开(公告)号:CN120012771A

    公开(公告)日:2025-05-16

    申请号:CN202411932124.3

    申请日:2024-12-26

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于大语言模型的多语言通用词性识别方法及系统,涉及自然语言处理与词性识别的技术领域,包括:采用大语言模型作为核心基座模型,通过低秩适配技术进行高效微调,设计语言和多领域的词汇与句法分析,使用模型蒸馏将大模型的知识迁移到一个小模型,以减少模型大小和计算成本,通过设计规范化的提示词引导模型生成标准化的输出,并从中自动完成词性识别任务,最后用代码解析模型输出生成JSON格式数据,以供后续的业务系统的集成使用,确保高效支持前端展示和后端业务逻辑处理。本发明输出的词性信息可用于多种下游任务,如智能搜索、文本分类、代码解析和语法校验,为多种业务系统提供数据支持。

    一种基于大语言模型的实体消歧和遗忘方法及系统

    公开(公告)号:CN120011534A

    公开(公告)日:2025-05-16

    申请号:CN202411932523.X

    申请日:2024-12-26

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于大语言模型的实体消歧和遗忘方法及系统,涉及自然语言处理的实体消歧技术领域,包括;确定实体消歧数据集和遗忘数据集,构建对比学习样本并进行数据预处理;利用LLaMA3模型提取特征,添加投影层和对比学习模块;通过构建损失函数,对于每个样本,使用余弦相似度计算其特征表示与正负样本的相似度,使用对比损失来度量模型在区分正负样本的效果;基于损失值,通过反向传播更新模型参数,直到模型收敛。本发明以LLaMA3模型基础架构,基于对比学习的方法增强了模型的判别能力,同时提供了实现遗忘机制的途径。本发明为模型在自然语言处理领域的研究和应用提供新的思路。

    基于多重词特征融合的情感分类方法、介质

    公开(公告)号:CN113742482B

    公开(公告)日:2024-05-31

    申请号:CN202110813433.9

    申请日:2021-07-19

    Applicant: 暨南大学

    Abstract: 本发明公开了基于多重词特征融合的情感分类方法、介质,包括:对训练样本集中各文本数据进行文本预处理,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;建立基于Transformer模型的Encoder网络,在Encoder网络的编码层加入词性向量层;将训练样本集中各文本数据对应字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中;进行预训练任务,得到情感分类模型;基于情感分类模型对需要进行分类的文本数据进行分类。本发明利用Transformer健壮的网络结构使得信息能够得到充分的利用,在模型编码层创新性的加入词性层,在情感分析领域,得到了很好的效果。

    一种基于对抗训练融合BERT的微博文本情感分析方法及系统

    公开(公告)号:CN115392259A

    公开(公告)日:2022-11-25

    申请号:CN202211321734.0

    申请日:2022-10-27

    Applicant: 暨南大学

    Abstract: 本发明涉及自然语言处理的情感分析技术领域,公开了一种基于对抗训练融合BERT的微博文本情感分析方法及系统,包括:S1文本预处理步骤:读取原始微博文本数据集,进行数据扩充,得到预处理文本数据;S2预训练步骤:将预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;S3下游微调步骤:将增量预训练模型结合预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。本发明融合对抗训练和增加外部数据,提升了模型预测的精确性与鲁棒性,可以使BERT在微博情感分类领域的发挥更好的作用。

Patent Agency Ranking