一种基于单氨基酸序列特征的蛋白质二级结构预测方法

    公开(公告)号:CN119049540A

    公开(公告)日:2024-11-29

    申请号:CN202411106706.6

    申请日:2024-08-13

    Inventor: 董本志 苏慧

    Abstract: 一种基于单氨基酸序列特征的蛋白质二级结构预测方法,它属于生物信息学领域。本发明解决了由于进化信息特征获取存在局限性且模型忽略了氨基酸序列中二级结构标签之间的相互依赖关系,导致利用现有方法获得的模型预测效果不佳的问题。本发明在特征处理阶段融合了蛋白质语言模型生成的特征表示以及采用词嵌入和位置嵌入的混合编码方式得到的特征,融合的特征既含有丰富的进化信息,又充分获取了序列中氨基酸残基的位置信息以及它们之间的依赖关系。融合的特征再依次经过Transformer编码器、CNN和BiLSTM输出全局特征信息,并通过引入CRF,将序列中蛋白质二级结构之间的相互作用考虑在内,保证蛋白质二级结构预测准确率。本发明方法可以应用于蛋白质二级结构预测。

Patent Agency Ranking