-
公开(公告)号:CN114550824A
公开(公告)日:2022-05-27
申请号:CN202210110503.9
申请日:2022-01-29
Applicant: 河南大学
Abstract: 本发明公开一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统。该方法首先采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成给定蛋白质链的嵌入矩阵,然后通过计算均值和余弦相似性将嵌入矩阵转化为固定长度的特征向量。特别地,通过使用嵌入特征,本发明避免了耗时的多序列比对操作。此外,考虑到蛋白质折叠数据具有明显的不平衡类分布,本发明采用针对不平衡分类任务的标签分布意识间隔损失训练设计的多层感知机网络,并因此增强了稀疏折叠类别的学习能力。总之,本发明提出的蛋白质折叠识别网络模型能够快速准确地预测给定蛋白质链的折叠类别。
-
公开(公告)号:CN117577169A
公开(公告)日:2024-02-20
申请号:CN202311330313.9
申请日:2023-10-13
Applicant: 河南大学
Abstract: 本发明公开了一种基于嵌入特征和动态卷积网络的蛋白质扭转角预测方法,对于给定的蛋白质氨基酸序列,该方法首先采用预训练的蛋白质语言模型生成富含生物信息的嵌入特征,然后采用融合注意力机制的全维度动态卷积网络直接预测扭转角。特别地,通过使用全维度动态卷积,设计的预测网络能够同时学习空间维度、输入通道维度和输出通道维度的注意力并因此提升了网络的特征提取能力。此外,由于网络输出的是扭转角而非扭转角的正弦值和余弦值,所以避免了耗时地使用反正切函数arctan计算扭转角。总之,本发明提出的扭转角预测方法不仅能够基于氨基酸序列进行精确地扭转角预测而且适用于任何预训练的蛋白质语言模型生成的嵌入特征。
-
公开(公告)号:CN114596913B
公开(公告)日:2023-03-31
申请号:CN202210180117.7
申请日:2022-02-25
Applicant: 河南大学
IPC: G16B15/20
Abstract: 本发明属于计算生物学技术领域,公开一种基于深度中心点模型的蛋白质折叠识别方法及系统,该方法的目标是学习一个将每个蛋白质链映射为单位向量的深度嵌入网络,使得在嵌入空间中折叠类型相同的蛋白质链距离较近,折叠类型不同的蛋白质链距离较远。为此,本发明首先采用预训练的蛋白质语言模型将蛋白质的氨基酸序列表示成嵌入特征矩阵,然后通过同时最小化每个蛋白质链与其目标中心点的距离和最大化每个蛋白质链与其他非目标中心点的距离来学习深度嵌入网络,最后基于学习的深度嵌入网络进行蛋白质折叠类别的预测。总之,本发明通过采用深度嵌入学习技术能够精确地预测蛋白质的折叠类别。
-
公开(公告)号:CN114596913A
公开(公告)日:2022-06-07
申请号:CN202210180117.7
申请日:2022-02-25
Applicant: 河南大学
IPC: G16B15/20
Abstract: 本发明属于计算生物学技术领域,公开一种基于深度中心点模型的蛋白质折叠识别方法及系统,该方法的目标是学习一个将每个蛋白质链映射为单位向量的深度嵌入网络,使得在嵌入空间中折叠类型相同的蛋白质链距离较近,折叠类型不同的蛋白质链距离较远。为此,本发明首先采用预训练的蛋白质语言模型将蛋白质的氨基酸序列表示成嵌入特征矩阵,然后通过同时最小化每个蛋白质链与其目标中心点的距离和最大化每个蛋白质链与其他非目标中心点的距离来学习深度嵌入网络,最后基于学习的深度嵌入网络进行蛋白质折叠类别的预测。总之,本发明通过采用深度嵌入学习技术能够精确地预测蛋白质的折叠类别。
-
公开(公告)号:CN114550824B
公开(公告)日:2022-11-22
申请号:CN202210110503.9
申请日:2022-01-29
Applicant: 河南大学
Abstract: 本发明公开一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统。该方法首先采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成给定蛋白质链的嵌入矩阵,然后通过计算均值和余弦相似性将嵌入矩阵转化为固定长度的特征向量。特别地,通过使用嵌入特征,本发明避免了耗时的多序列比对操作。此外,考虑到蛋白质折叠数据具有明显的不平衡类分布,本发明采用针对不平衡分类任务的标签分布意识间隔损失训练设计的多层感知机网络,并因此增强了稀疏折叠类别的学习能力。总之,本发明提出的蛋白质折叠识别网络模型能够快速准确地预测给定蛋白质链的折叠类别。
-
公开(公告)号:CN117352049B
公开(公告)日:2024-09-13
申请号:CN202311439766.5
申请日:2023-10-31
Applicant: 河南大学
IPC: G16B20/00 , G16B40/20 , G06F18/214
Abstract: 本发明公开一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法。基于transfomer模型,采用自监督学习技术从大规模蛋白质序列数据中学到有用的生物信息。为了降低蛋白质语言模型对显存的需求以方便部署,本发明首先把全连接层的权重矩阵表示成多个小矩阵的Kronecker积的和,然后设计了一种基于Eckhart‑Young定理的奇异值分解方法对小矩阵参数集进行初始化。本发明提出的设计方法可以在维持蛋白质语言模型建模能力的同时显著减少参数的数量。此外,基于本发明获得的预训练蛋白质语言模型可以为蛋白质结构预测、蛋白质折叠识别和蛋白质功能预测等任务提供富含生物信息的嵌入特征。
-
公开(公告)号:CN117352049A
公开(公告)日:2024-01-05
申请号:CN202311439766.5
申请日:2023-10-31
Applicant: 河南大学
IPC: G16B20/00 , G16B40/20 , G06F18/214
Abstract: 本发明公开一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法。基于transfomer模型,采用自监督学习技术从大规模蛋白质序列数据中学到有用的生物信息。为了降低蛋白质语言模型对显存的需求以方便部署,本发明首先把全连接层的权重矩阵表示成多个小矩阵的Kronecker积的和,然后设计了一种基于Eckhart‑Young定理的奇异值分解方法对小矩阵参数集进行初始化。本发明提出的设计方法可以在维持蛋白质语言模型建模能力的同时显著减少参数的数量。此外,基于本发明获得的预训练蛋白质语言模型可以为蛋白质结构预测、蛋白质折叠识别和蛋白质功能预测等任务提供富含生物信息的嵌入特征。
-
-
-
-
-
-