-
公开(公告)号:CN114900362B
公开(公告)日:2024-10-15
申请号:CN202210528503.0
申请日:2022-05-16
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法,该方法首先采用主机行为的图表示形式,能够以网络通信图为基础架构,将与各个主机通过相关联的连接记录以通信关系关联在一起;其次基于自相似度进行数据减量,由于网络数据的冗余度高,需要进行数据减量来提高模型的训练效率,但是对连接记录进行数据减量很可能导致主机的行为模式的完整性被破坏;最后利用Weisfeiler Lehman图核端到端进行图嵌入和相似度计算。将其输出作为核方法的输入,结合集成学习,能够高效训练模型的同时不会引入更多误差。
-
公开(公告)号:CN111339779A
公开(公告)日:2020-06-26
申请号:CN202010199125.7
申请日:2020-03-20
Applicant: 桂林电子科技大学
IPC: G06F40/295
Abstract: 本发明公开了一种用于越南语的命名实体识别方法,其特征在于,包括如下步骤:1)模型训练;2)数据字典构建,所述模型训练包括:1-1)数据输入;1-2)BERT层训练;1-3)GRU层训练;1-4)CRF层训练,所述数据字典构建包括:2-1)数据字典修正;2-2)结果验证。这种方法越南语命名实体识别准确率高。
-
-
公开(公告)号:CN114896394A
公开(公告)日:2022-08-12
申请号:CN202210404007.4
申请日:2022-04-18
Applicant: 桂林电子科技大学
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语言预训练模型的事件触发词检测与分类方法,首先构建事件触发词与事件要素的向量池,再使用现有的工具对事件进行语义角色标注,最后再以相似度计算方法将它们映射到给定的事件类型进行分类。本发明有效地减弱了人工进行事件标注的工作量,并且方便拓展到其他事件类型;使用多语言的预训练模型进行编码,让多种语言可以在一个向量池上进行相似性挖掘与预测,减少了一种语言训练一个模型的工作量;使用多语言的预训练模型,准备阶段中使用中英等外部新闻语料库丰富的数据量,避免了稀缺语言资源使用该方法却没有丰富新闻语料库扩充向量池的问题。
-
公开(公告)号:CN111723587A
公开(公告)日:2020-09-29
申请号:CN202010578711.2
申请日:2020-06-23
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种面向跨语言知识图谱的汉泰实体对齐方法,其特征在于,包括如下步骤:1)双语数据集获取;2)机器翻译模型构建与训练;3)实体抽取;4)实体翻译与匹配。这种方法可以更加有效,更精确的实现双语实体对齐,解决目前跨语言知识图谱构建实体对齐程度较低的问题。
-
公开(公告)号:CN114900362A
公开(公告)日:2022-08-12
申请号:CN202210528503.0
申请日:2022-05-16
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于行为图和Weisfeiler Lehman算法的可扩展网络攻击检测方法,该方法首先采用主机行为的图表示形式,能够以网络通信图为基础架构,将与各个主机通过相关联的连接记录以通信关系关联在一起;其次基于自相似度进行数据减量,由于网络数据的冗余度高,需要进行数据减量来提高模型的训练效率,但是对连接记录进行数据减量很可能导致主机的行为模式的完整性被破坏;最后利用Weisfeiler Lehman图核端到端进行图嵌入和相似度计算。将其输出作为核方法的输入,结合集成学习,能够高效训练模型的同时不会引入更多误差。
-
公开(公告)号:CN114064866A
公开(公告)日:2022-02-18
申请号:CN202111169607.9
申请日:2021-10-08
Applicant: 桂林电子科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F16/951 , G06F40/42 , G06F40/58
Abstract: 本发明公开了一种基于跨语言向量的东盟地区新闻平行语料挖掘方法,通过爬取多语新闻网站内容,按语言种类将文章分类;将不同语言的文章分别进行预处理,得到篇章集合;对篇章集合进行分句,得到语句合集;使用多语言编码模型对语句进行编码,得到向量合集;通过语句对应的向量计算语句的相似度,得到平行语句对;根据平行语句对中语句在原文章中的占比判断是否存入可比语料库,从而得到大量的平行语料。过程中使用知识蒸馏的方法使得大模的跨语言句向量模型在使用较少平行语料的情况下能有更好的表现。最终解决对于东盟地区的低资源语料而言,没有大量的平行语料构建神经机器翻译系统,从而无法做到平行语句挖掘的问题。
-
公开(公告)号:CN111209754A
公开(公告)日:2020-05-29
申请号:CN202010114417.6
申请日:2020-02-25
Applicant: 桂林电子科技大学
IPC: G06F40/295 , G06F40/58 , G06F16/35
Abstract: 本发明公开了一种用于越南语实体识别的数据集构造方法,其特征在于,包括如下步骤:1)中文数据集获取;2)命名实体提取;3)中文数据集拆分;4)中文数据翻译;5)越南语数据文件构建;6)得到越南语实体识别数据集。这种方法能降低越南语数据集的构建成本、可扩充越南语语料库。
-
公开(公告)号:CN114707151B
公开(公告)日:2024-03-19
申请号:CN202210528096.3
申请日:2022-05-16
Applicant: 桂林电子科技大学
IPC: G06F21/56 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于API调用和网络行为的僵尸软件检测方法,该方法包括主机行为模式提取层模块、网络行为模式提取层模块和聚合训练模块;其中主机行为模式提取层模块包括文件解析识别子模块、静态FCG提取子模块、样本分发子模块和调用上下文提取子模块,依次进行样本文件的解析和识别、样本分发、样本的静态分析和动态分析、FCG调用图压缩以及节点重标签;网络行为模式提前层模块包括网络行为监控和数据预处理子模块、LSTM表示学习子模块,进行网络行为收集和数据预处理,训练LSTM表示学习子模块;聚合训练模块将主机行为模式提取层模块、网络行为模式提取层模块的输出数据进行聚合训练,输入全连接分类网络中,最后得到分类结果。
-
公开(公告)号:CN111209754B
公开(公告)日:2023-06-02
申请号:CN202010114417.6
申请日:2020-02-25
Applicant: 桂林电子科技大学
IPC: G06F40/295 , G06F40/58 , G06F16/35
Abstract: 本发明公开了一种用于越南语实体识别的数据集构造方法,其特征在于,包括如下步骤:1)中文数据集获取;2)命名实体提取;3)中文数据集拆分;4)中文数据翻译;5)越南语数据文件构建;6)得到越南语实体识别数据集。这种方法能降低越南语数据集的构建成本、可扩充越南语语料库。
-
-
-
-
-
-
-
-
-