-
公开(公告)号:CN119541645A
公开(公告)日:2025-02-28
申请号:CN202510101408.6
申请日:2025-01-22
Applicant: 吉林大学
IPC: G16B30/10 , G16B40/00 , G16B50/00 , G06F18/214 , G06F18/243 , G06N20/20
Abstract: 本发明公开了一种宏基因组质粒识别方法、系统、终端及存储介质,涉及生物信息学DNA数据挖掘领域,所述方法包括:获取目标基因组重叠群,根据基因预测工具进行编码,得到输入特征向量,基于比对工具和预先构建的比对库,进行比对,得到基因组特征;将所述输入特征向量输入到改进的Transformer模型中,输出第一分类分数;将所述基因组特征输入到随机森林模型中,得到第二分类分数;根据基于注意力机制的分类模型,分别对所述第一分类分数和所述第二分类分数进行聚合,得到第一矩阵和第二矩阵,根据所述第一矩阵和所述第二矩阵,得到质粒识别分数。本发明通过两种模型的识别,并将对应的结果进行融合,从而可以准确识别质粒。
-
公开(公告)号:CN119541645B
公开(公告)日:2025-05-16
申请号:CN202510101408.6
申请日:2025-01-22
Applicant: 吉林大学
IPC: G16B30/10 , G16B40/00 , G16B50/00 , G06F18/214 , G06F18/243 , G06N20/20
Abstract: 本发明公开了一种宏基因组质粒识别方法、系统、终端及存储介质,涉及生物信息学DNA数据挖掘领域,所述方法包括:获取目标基因组重叠群,根据基因预测工具进行编码,得到输入特征向量,基于比对工具和预先构建的比对库,进行比对,得到基因组特征;将所述输入特征向量输入到改进的Transformer模型中,输出第一分类分数;将所述基因组特征输入到随机森林模型中,得到第二分类分数;根据基于注意力机制的分类模型,分别对所述第一分类分数和所述第二分类分数进行聚合,得到第一矩阵和第二矩阵,根据所述第一矩阵和所述第二矩阵,得到质粒识别分数。本发明通过两种模型的识别,并将对应的结果进行融合,从而可以准确识别质粒。
-