-
公开(公告)号:CN118155726A
公开(公告)日:2024-06-07
申请号:CN202410331497.9
申请日:2024-03-22
Applicant: 中国烟草总公司广西壮族自治区公司 , 贵州省烟草科学研究院
IPC: G16B40/00 , G16B30/00 , G16B50/40 , G06F18/15 , G06F18/25 , G06F18/2431 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/048
Abstract: 本发明涉及生物信息处理技术领域,具体公开了一种基于多元化特征的基因序列分类方法及系统,借助K‑mer和图生成的方式将基因序列转换为基因序列图,并对基因序列图进行多元化的特征提取,其中包括局部特征、全局特征和混合特征以及聚合特征。在局部特征提取和混合特征提取中采用了图自注意力机制,将需要重点关注的局部信息分配了较高的权重,在全局特征提取中采用了图卷积特征提取,在聚合特征提取中采用了图间的消息传递,捕获不同层级的特征。本发明在对序列的多元化特征提取时,保证了提取到基因序列中更加显著的特征同时避免了过平滑,同时使用孪生神经网络衡量输入样本的差异性,从而提高基因序列分类的准确度。