-
公开(公告)号:CN113724779B
公开(公告)日:2022-06-17
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-
公开(公告)号:CN113870949B
公开(公告)日:2022-05-17
申请号:CN202111172443.5
申请日:2021-10-08
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。
-
公开(公告)号:CN119763718A
公开(公告)日:2025-04-04
申请号:CN202411891443.4
申请日:2024-12-20
Applicant: 东北林业大学
Abstract: 基于知识提示的多模态药物分子预测方法,本发明属于人工智能辅助药物研发领域,具体涉及多模态药物分子预测方法。本发明的目的是为了解决现有的多模态分子预测方法往往难以捕捉分子图结构和文本之间的复杂关系,且在下游任务上的预测准确率低的问题。基于知识提示的多模态药物分子预测方法具体过程为:构建MolPrompt模型;对MolPrompt模型进行预训练,获得预训练好的MolPrompt模型;基于下游任务类型,对预训练好的MolPrompt模型进行微调,获得微调后的MolPrompt模型;基于微调后的MolPrompt模型对下游任务进行预测。
-
公开(公告)号:CN119479906A
公开(公告)日:2025-02-18
申请号:CN202411539556.8
申请日:2024-10-31
Applicant: 东北林业大学
IPC: G16C20/70 , G16C20/50 , G16C20/30 , G06N3/042 , G06N3/0895
Abstract: 基于提示学习的多模态细粒度分子预训练模型的分子结构预测系统,本发明涉及分子结构预测领域,特别涉及分子结构预测系统。本发明的目的是为了解决现有方法因数据稀缺和任务适用性不足导致在处理复杂分子数据时存在准确性和效率低,以及分子间相互作用预测准确性低的问题。系统包括:数据获取模块用于获取多模态分子预训练数据集内的样本数据以及下游任务数据集内的样本数据;处理模块用于建立基于提示学习的多模态细粒度分子预训练模型,并获取训练好的基于提示学习的多模态细粒度分子预训练模型;预测模块用于基于训练好的提示学习的多模态细粒度分子预训练模型对待测分子结构进行属性和药物相互作用关系的预测,获得预测结果。
-
公开(公告)号:CN118298925A
公开(公告)日:2024-07-05
申请号:CN202410490998.1
申请日:2024-04-23
Applicant: 东北林业大学
IPC: G16B40/00 , G16B10/00 , G16B20/00 , G16B30/00 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/096
Abstract: 基于迁移学习的植物NLR‑无毒蛋白Avr对应关系识别方法,涉及蛋白质互作识别领域。本发明是为了解决由于现有NLR和无毒蛋白对应关系识别方法还存在识别成本高、单位时间内识别效率低导致NLR在抗性育种中应用受限的问题。本发明包括:利用已知对应关系的NLR‑Avr蛋白质序列对构建蛋白质序列对数据集,并将蛋白质序列对数据集划分为训练集和验证集;利用训练集训练Avr‑BAN模型,获得训练好的Avr‑BAN模型,利用验证集对训练好的Avr‑BAN模型验证,获得植物NLR‑待测无毒蛋白预测模型;将待测植物NLR和待测无毒蛋白输入到植物NLR‑待测无毒蛋白预测模型中,获得待测植物NLR和待测无毒蛋白的对应关系概率;本发明用于预测植物NLR和无毒蛋白Avr的对应关系。
-
公开(公告)号:CN116504331A
公开(公告)日:2023-07-28
申请号:CN202310479801.X
申请日:2023-04-28
Applicant: 东北林业大学
Abstract: 基于多模态和多任务的药物副作用的频率分数预测方法,本发明涉及深度学习技术预测药物副作用的频率分数方法。本发明的目的是为了解决现有的计算方法对药物和副作用关联关系判别准确率低,以及对药物和副作用的频率分数预测准确率低的问题。过程为:一、获得药物分子的化学结构语义特征、药物分子的化学序列语义特征、药物的生物医学文本特征和副作用的生物医学文本特征;得到药物副作用对;二、计算药物的相似性信息和副作用的相似性信息;得到药物副作用对;三、将学习到的药物副作用对串联送入多层感知机进行预测,预测药物和副作用间是否存在关联并且存在关联时药物和副作用的频率分数。本发明属于药物与副作用之间的频率预测技术领域。
-
公开(公告)号:CN115240775A
公开(公告)日:2022-10-25
申请号:CN202210843836.2
申请日:2022-07-18
Applicant: 东北林业大学
Abstract: 基于stacking集成学习策略的Cas蛋白预测方法,涉及一种Cas蛋白预测方法。为了解决目前Cas蛋白识别方法中在模型构建及特征工程方面存在着一定的局限性,导致无法达到理想的预测效果问题。本发明利用双层预测模型对潜在Cas蛋白进行识别;所述双层预测模型的建立过程中,首先获取Cas蛋白序列数据集,使用基于序列模式特征、进化信息特征、理化性质特征、深度表示学习特征的编码对Cas蛋白数据进行编码,构建初始特征空间;然后通过对初始特征空间进行特征空间优化,利用最优特征空间构建多个基学习模型,再基于多个基学习模型输出的置信度得分特征作为第二层模型的输入特征,进行二次建模,构建得到双层预测模型。
-
公开(公告)号:CN113611355B
公开(公告)日:2022-07-29
申请号:CN202110950026.2
申请日:2021-08-18
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,涉及医药技术领域,针对现有技术中根据序列信息预测的二级结构,使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。
-
公开(公告)号:CN113724779A
公开(公告)日:2021-11-30
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-
公开(公告)号:CN112863693B
公开(公告)日:2021-09-28
申请号:CN202110154690.6
申请日:2021-02-04
Applicant: 东北林业大学
Abstract: 基于多通道图卷积网络的药物靶标相互作用预测方法,它属于药物与靶标关系预测技术领域。本发明解决了现有方法依赖于手工所提取的特征不准确,导致的对药物靶标相互作用预测的准确性差的问题。本发明根据获得的药物特征矩阵和蛋白质特征矩阵构建药物蛋白对网络,并采用多通道图卷积网络对药物蛋白对网络中药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系进行特征提取,得到拓扑关系嵌入和特征邻近关系嵌入,再对拓扑关系嵌入和特征邻近关系嵌入进行处理得到共同嵌入,最后使用注意力机制将拓扑关系嵌入、特征邻近关系嵌入和共同嵌入融合,将融合结果输入多层感知机对药物靶标关系进行预测。本发明可以应用于药物与靶标关系的预测。
-
-
-
-
-
-
-
-
-