-
公开(公告)号:CN119807371A
公开(公告)日:2025-04-11
申请号:CN202411883259.5
申请日:2024-12-19
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
IPC: G06F16/3329 , G06F16/334 , G06F16/36 , G06F40/295 , G06N5/02
Abstract: 本申请提供一种模型训练方法、答案确定方法、电子设备及存储介质,涉及问答技术领域。方法包括:对构建的初始知识图谱嵌入模型和初始问题嵌入模型进行联合训练,得到目标知识图谱嵌入模型和目标问题嵌入模型;基于样本问题数据,确定查询意图向量;根据查询意图向量和目标知识图谱嵌入模型,对初始推理模型进行训练,得到目标推理模型。通过目标问题嵌入模型,对用户输入的目标问题信息进行分析处理,得到目标上下文向量;根据目标上下文向量,确定目标问题信息对应的目标意图查询向量;根据目标推理模型,基于目标查询向量在目标知识图谱嵌入模型确定目标节点路径;对目标节点路径进行语言转换处理,得到目标问题信息对应的答案信息。
-
公开(公告)号:CN116521848A
公开(公告)日:2023-08-01
申请号:CN202310601397.9
申请日:2023-05-25
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
IPC: G06F16/332 , G06F16/35 , G06N3/0464 , G06N3/08
Abstract: 本发明实施例提供一种语言模型训练、网络安全检测方法、装置、设备及介质,涉及自然语言处理技术领域。所述语言模型训练方法包括:获取多种类型的原始数据,分别对每一所述原始数据进行预处理,得到训练数据,并根据所有所述训练数据,生成训练语料库;结合多层卷积神经网络和多层解码网络,建立初始语言模型;基于所述训练语料库迭代训练所述初始语言模型,并在满足预先定义的训练结束条件时,停止迭代训练所述初始语言模型,得到语言模型。本发明实施例能够实现支持对各种类型的网络安全领域数据进行准确的网络安全检测的技术效果。
-
公开(公告)号:CN119474204A
公开(公告)日:2025-02-18
申请号:CN202411542900.9
申请日:2024-10-31
Applicant: 湖北天融信网络安全技术有限公司 , 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/27 , G06F16/2457
Abstract: 本申请实施例提供一种数据同步方法、系统、程序产品、电子设备及存储介质,涉及数据处理技术领域。所述数据同步方法,适用于第一终端,所述方法包括:获取针对第一终端的第一数据库配置的筛选规则、第一主键字段、第一同步字段和第一同步方向;根据筛选规则筛选第一数据库中的待同步数据,并确定待同步数据的数据操作类型;根据待同步数据对应于第一主键字段的字段值、待同步数据对应于第一同步字段的字段值、数据操作类型和第一数据库中的数据表主从关系,得到数据列表;向第二终端发送数据列表,使第二终端根据数据列表进行数据同步;其中,第二终端是根据第一同步方向确定的。本申请实施例能够提高数据同步效率。
-
公开(公告)号:CN117786045A
公开(公告)日:2024-03-29
申请号:CN202311765523.0
申请日:2023-12-20
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F16/33
Abstract: 本申请实施例公开了一种文本召回方法、装置、计算设备及机器可读存储介质,属于数据处理领域。文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。
-
公开(公告)号:CN117668157A
公开(公告)日:2024-03-08
申请号:CN202311634895.X
申请日:2023-11-30
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
IPC: G06F16/33 , G06F16/36 , G06N3/0442 , G06N3/098
Abstract: 本申请实施例提供一种基于知识图谱的检索增强方法、装置、设备及介质,该方法包括:获取待查询问题;根据待查询问题和预先训练的知识图谱增强模型,确定与待查询问题的初始查询结果;根据待查询问题、初始查询结果和预先训练的大语言模型生成目标答案,不仅节省了模型重新训练的时间,而且还提高了回答问题的准确性和效率。
-
公开(公告)号:CN116257849A
公开(公告)日:2023-06-13
申请号:CN202310152826.9
申请日:2023-02-22
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
Abstract: 本申请实施例提供一种恶意代码的同源分析方法、装置、电子设备、及介质,方法包括:提取待分析的目标恶意代码的本体特征;针对预先构建的知识图谱中每个已知恶意代码样本,获取已知恶意代码样本的流行度;其中,知识图谱中的节点包括多个已知恶意代码样本的本体特征;计算目标恶意代码的本体特征与已知恶意代码样本的本体特征间的相似度;根据流行度与相似度,确定目标恶意代码与已知恶意代码样本的同源性概率。上述过程节约了训练集成本;不会占据大量内存;且只需计算相似度与概率,大大提高了同源分析时处理效率。知识图谱向概率模型引入了领域知识,解决了相关技术中仅考虑恶意代码本身信息的缺陷,提高了同源分析算法的准确率。
-
公开(公告)号:CN119484146A
公开(公告)日:2025-02-18
申请号:CN202411916070.1
申请日:2024-12-24
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
Abstract: 本申请涉及网络安全技术领域,具体提供了一种训练知识图谱推理模型、基于知识图谱的威胁情报推理的方法、介质、设备及产品,该训练知识图谱推理模型的方法可以包括:对威胁情报数据对应的时序知识图谱进行聚合,获取多粒度知识图谱;利用初始知识图谱推理模型对所述多粒度知识图谱进行相关处理,获取多类评价分值;利用所述多类评价分值和损失函数确定的损失值,优化所述初始知识图谱推理模型,获取训练好的目标知识图谱推理模型;其中,所述目标知识图谱推理模型用于对威胁情报的四元组中的任一实体进行推理预测。本申请的一些实施例可以提升知识图谱推理的准确度。
-
公开(公告)号:CN116861247A
公开(公告)日:2023-10-10
申请号:CN202310896701.7
申请日:2023-07-20
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Inventor: 李娇
IPC: G06F18/214 , G06F18/24 , G06F40/295 , G06F40/216 , G06F16/35 , G06N3/126 , G06N3/0442 , G06N3/045 , G06N3/091 , G06N7/01
Abstract: 本申请实施例提供一种命名实体识别方法、装置、电子设备及存储介质,涉及网络安全技术领域。该方法包括获得网络安全领域的非结构化文本;将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。该方法利用主动学习策略,同时考虑数据的不确定性和多样性,从未标注数据中选择信息量丰富且全面的数据,从而以较低的标注样本实现较高的模型性能,解决了现有方法没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本的问题。
-
公开(公告)号:CN119903905A
公开(公告)日:2025-04-29
申请号:CN202411973351.0
申请日:2024-12-30
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
Abstract: 本申请实施例提供一种知识图谱推理模型的微调方法、设备、介质及程序产品,涉及模型微调技术领域。所述方法包括:响应于知识图谱更新事件触发的推理模型更新指令,获取知识图谱更新事件对应的新增三元组数据集;确定当前需要从原始知识图谱中抽取的三元组数据量,基于三元组数据量从原始知识图谱中获取原始三元组数据集,并基于原始三元组数据集和新增三元组数据集构建微调数据集;基于微调数据集对原始推理模型进行微调,得到更新后的推理模型。本申请实施例通过从原始知识图谱中抽取部分原始三元组数据,并基于这些原始三元组数据结合新增的三元组数据对推理模型进行微调,从而能够在保证模型推理性能的同时降低模型微调的成本。
-
公开(公告)号:CN117421573A
公开(公告)日:2024-01-19
申请号:CN202311457081.3
申请日:2023-11-03
Applicant: 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司
IPC: G06F18/21 , G06F18/214
Abstract: 本申请实施例提供一种用于问答检索模型的训练方法、装置及存储介质。方法包括:确定训练数据集,训练数据集包括多个长问答文本;将每个长问答文本依次输入至编码器,并基于编码器的输出和第一损失函数确定训练数据集的第一损失值;对每个长问答文本进行拆分处理,以得到多个短问答文本;基于第二损失函数和全部的短问答文本确定训练数据集的第二损失值;将多个答句输入至编码器和对抗网络,以通过编码器的输出、对抗网络的输出和第三损失函数确定训练数据集的第三损失值;根据第一损失值、第二损失值和第三损失值确定训练数据集的总损失值;根据总损失值调整权重系数,直至问答检索模型训练完成,提高模型性能和后续问答检索的准确度。
-
-
-
-
-
-
-
-
-