模型训练方法、答案确定方法、电子设备及存储介质

    公开(公告)号:CN119807371A

    公开(公告)日:2025-04-11

    申请号:CN202411883259.5

    申请日:2024-12-19

    Inventor: 李娇

    Abstract: 本申请提供一种模型训练方法、答案确定方法、电子设备及存储介质,涉及问答技术领域。方法包括:对构建的初始知识图谱嵌入模型和初始问题嵌入模型进行联合训练,得到目标知识图谱嵌入模型和目标问题嵌入模型;基于样本问题数据,确定查询意图向量;根据查询意图向量和目标知识图谱嵌入模型,对初始推理模型进行训练,得到目标推理模型。通过目标问题嵌入模型,对用户输入的目标问题信息进行分析处理,得到目标上下文向量;根据目标上下文向量,确定目标问题信息对应的目标意图查询向量;根据目标推理模型,基于目标查询向量在目标知识图谱嵌入模型确定目标节点路径;对目标节点路径进行语言转换处理,得到目标问题信息对应的答案信息。

    文本召回方法、装置、计算设备及机器可读存储介质

    公开(公告)号:CN117786045A

    公开(公告)日:2024-03-29

    申请号:CN202311765523.0

    申请日:2023-12-20

    Abstract: 本申请实施例公开了一种文本召回方法、装置、计算设备及机器可读存储介质,属于数据处理领域。文本召回方法包括:根据目标文本和目标文本的文本长度,确定第一数量的关键词;根据每个关键词在目标文本中的出现顺序,将第一数量的关键词进行组合,得到关键文本;分别对关键词和关键文本进行向量化,得到关键词向量和关键文本向量;将关键文本向量与所有的关键词向量进行加权求和,得到目标文本对应的向量映射;根据向量映射对目标文本进行向量召回,生成目标文本的文本召回结果。在限制关键词数量的基础上,基于每个关键词的重要性,得到目标文本对应的向量映射。通过向量映射进行文本召回,能够得到高准确性的文本召回结果。

    一种恶意代码的同源分析方法、装置、电子设备、及介质

    公开(公告)号:CN116257849A

    公开(公告)日:2023-06-13

    申请号:CN202310152826.9

    申请日:2023-02-22

    Inventor: 李娇

    Abstract: 本申请实施例提供一种恶意代码的同源分析方法、装置、电子设备、及介质,方法包括:提取待分析的目标恶意代码的本体特征;针对预先构建的知识图谱中每个已知恶意代码样本,获取已知恶意代码样本的流行度;其中,知识图谱中的节点包括多个已知恶意代码样本的本体特征;计算目标恶意代码的本体特征与已知恶意代码样本的本体特征间的相似度;根据流行度与相似度,确定目标恶意代码与已知恶意代码样本的同源性概率。上述过程节约了训练集成本;不会占据大量内存;且只需计算相似度与概率,大大提高了同源分析时处理效率。知识图谱向概率模型引入了领域知识,解决了相关技术中仅考虑恶意代码本身信息的缺陷,提高了同源分析算法的准确率。

    知识图谱推理模型的微调方法、设备、介质及程序产品

    公开(公告)号:CN119903905A

    公开(公告)日:2025-04-29

    申请号:CN202411973351.0

    申请日:2024-12-30

    Inventor: 薛智慧 李娇

    Abstract: 本申请实施例提供一种知识图谱推理模型的微调方法、设备、介质及程序产品,涉及模型微调技术领域。所述方法包括:响应于知识图谱更新事件触发的推理模型更新指令,获取知识图谱更新事件对应的新增三元组数据集;确定当前需要从原始知识图谱中抽取的三元组数据量,基于三元组数据量从原始知识图谱中获取原始三元组数据集,并基于原始三元组数据集和新增三元组数据集构建微调数据集;基于微调数据集对原始推理模型进行微调,得到更新后的推理模型。本申请实施例通过从原始知识图谱中抽取部分原始三元组数据,并基于这些原始三元组数据结合新增的三元组数据对推理模型进行微调,从而能够在保证模型推理性能的同时降低模型微调的成本。

    用于问答检索模型的训练方法、装置及存储介质

    公开(公告)号:CN117421573A

    公开(公告)日:2024-01-19

    申请号:CN202311457081.3

    申请日:2023-11-03

    Abstract: 本申请实施例提供一种用于问答检索模型的训练方法、装置及存储介质。方法包括:确定训练数据集,训练数据集包括多个长问答文本;将每个长问答文本依次输入至编码器,并基于编码器的输出和第一损失函数确定训练数据集的第一损失值;对每个长问答文本进行拆分处理,以得到多个短问答文本;基于第二损失函数和全部的短问答文本确定训练数据集的第二损失值;将多个答句输入至编码器和对抗网络,以通过编码器的输出、对抗网络的输出和第三损失函数确定训练数据集的第三损失值;根据第一损失值、第二损失值和第三损失值确定训练数据集的总损失值;根据总损失值调整权重系数,直至问答检索模型训练完成,提高模型性能和后续问答检索的准确度。

Patent Agency Ranking