-
公开(公告)号:CN120032714A
公开(公告)日:2025-05-23
申请号:CN202311550340.7
申请日:2023-11-21
Applicant: 东北林业大学
Abstract: 本发明公开提供一种与细胞通讯相关高度可变基因的识别方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后使用Seurat的函数对scRNA‑seq数据中的基因表达信息和ST数据中的空间细胞坐标信息进行筛选和提取,并对基因表达信息进行主成分分析。从而使用多元线性回归模型CPPLS对这两种信息进行拟合,构建出细胞通讯网络。首先先将细胞通讯网络中的基因表达水平与人类基因组和小鼠基因组的表达水平进行对比,得到细胞通讯对基因表达的影响。后续使用有向图的特征,对数据集中每两种细胞类型之间的关系进行分析,并且基于GeneCards、GO等官方数据库中记录的基因功能,为参与细胞网络构建的基因打标签,最后基于标签使用神经网络模型MLP对基因进行预测和分类,即可以识别与细胞通讯相关高度可变基因;该方法综合了单细胞及空间转录组学数据的信息,并且基于先验知识的准确性,因此可以精确识别与细胞通讯相关高度可变基因。
-
公开(公告)号:CN119626311A
公开(公告)日:2025-03-14
申请号:CN202311180921.6
申请日:2023-09-14
Applicant: 东北林业大学
Abstract: 本发明公开提供一种细胞空间组成的推断方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后利用scRNA‑seq数据集来模拟每个测序位点(spot)上的细胞混合物构建称为“伪ST”的合成ST数据,使用Seurat的IntegrateData方法将制作的伪ST数据和真实ST数据整合,以消除二者之间的批次效应,提高数据一致性和可比性,接着利用随机投影森林构建带权邻接矩阵来精确表示伪ST和真ST之间的拓扑关系,将特征和带权邻接矩阵一起导入GAT模型中,可以推断空间转录组学中每个位置的细胞类型组成;该方法充分利用了scRNA‑seq数据和ST数据之间的拓扑关系,因此可以更加精确的推断细胞空间组成。
-
公开(公告)号:CN119207579A
公开(公告)日:2024-12-27
申请号:CN202411209235.1
申请日:2024-08-30
Applicant: 东北林业大学
IPC: G16B40/00 , G16B45/00 , G06N3/0464 , G06N3/045 , G06N3/042 , G06N3/0895 , G06F18/25
Abstract: 一种多通道注意力机制的lncRNA‑miRNA关联预测方法,涉及一种lncRNA‑miRNA关联预测方法。为了解决现有方法未能恰当地融合多种数据源的特征表示且未能通过对比学习方法学习样本之间的相似性和差异性,导致可能没有学习到更加有效和鲁棒的特征表示的问题。本发明得到lncRNA和miRNA的多源数据并计算得到多种相似性矩阵和编码矩阵;结合图卷积网络和Transformer,从局部和全局两个角度捕捉信息;利用多通道的注意力机制来融合不同数据源的特征表示;并引入对比学习方法进一步优化特征表示,确保相同lncRNA或miRNA的不同模态特征之间的一致性,增强模型的辨别能力;最终预测阶段利用KAN得到lncRNA‑miRNA关联的预测得分,进一步提高了参数和计算效率。
-
公开(公告)号:CN117524346B
公开(公告)日:2024-07-05
申请号:CN202311547057.9
申请日:2023-11-20
Applicant: 东北林业大学
Abstract: 一种多视图癌症药物反应预测系统,涉及生物信息技术领域,本申请采用多视图的策略代替了通过GCN在细胞系‑药物异质图上聚合已知反应信息的传统方法,充分利用了已知的细胞系‑药物的所有反应信息。引入ILGCN,在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明在提高预测性能的同时,也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验,验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据,因此本申请的技术方案提升了癌症药物反应预测准确率。
-
公开(公告)号:CN116070157B
公开(公告)日:2024-04-16
申请号:CN202310041103.1
申请日:2023-01-13
Applicant: 东北林业大学
IPC: G06F18/2415 , G06F18/214 , G06F18/2431 , G06F18/25 , G16B30/00
Abstract: 基于级联森林和双流结构的circRNA识别方法,具体涉及一种利用级联森林基于RNA序列k‑mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法,为了解决现有circRNA识别方法识别的结果不准确的问题。获取预处理后包含circRNA或lncRNA的RNA序列,获得每条RNA序列剪接位置序列的位置特征向量,以及RNA序列k‑mer信息的k‑mer特征向量,将二者分别输入位置森林和k‑mer森林中,分别输出位置类别概率向量和k‑mer类别概率向量,将位置类别概率向量和k‑mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果。属于生物信息领域。
-
公开(公告)号:CN117524346A
公开(公告)日:2024-02-06
申请号:CN202311547057.9
申请日:2023-11-20
Applicant: 东北林业大学
Abstract: 一种多视图癌症药物反应预测系统,涉及生物信息技术领域,本申请采用多视图的策略代替了通过GCN在细胞系‑药物异质图上聚合已知反应信息的传统方法,充分利用了已知的细胞系‑药物的所有反应信息。引入ILGCN,在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明在提高预测性能的同时,也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验,验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据,因此本申请的技术方案提升了癌症药物反应预测准确率。
-
公开(公告)号:CN116070157A
公开(公告)日:2023-05-05
申请号:CN202310041103.1
申请日:2023-01-13
Applicant: 东北林业大学
IPC: G06F18/2415 , G06F18/214 , G06F18/2431 , G06F18/25 , G16B30/00
Abstract: 基于级联森林和双流结构的circRNA识别方法,具体涉及一种利用级联森林基于RNA序列k‑mer生物特征和circRNA剪接位置特征的双流结构的circRNA识别方法,为了解决现有circRNA识别方法识别的结果不准确的问题。获取预处理后包含circRNA或lncRNA的RNA序列,获得每条RNA序列剪接位置序列的位置特征向量,以及RNA序列k‑mer信息的k‑mer特征向量,将二者分别输入位置森林和k‑mer森林中,分别输出位置类别概率向量和k‑mer类别概率向量,将位置类别概率向量和k‑mer类别概率向量分别与超参数u进行融合,将融合后的两个结果相加,得到RNA序列最终的类别概率向量,获得RNA序列是否为circRNA的识别结果。属于生物信息领域。
-
公开(公告)号:CN114627964B
公开(公告)日:2023-03-24
申请号:CN202111069507.9
申请日:2021-09-13
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/20 , G06F18/214 , G06F18/2411 , G06N20/10
Abstract: 一种基于多核学习预测增强子及其强度分类方法及分类设备,本发明涉及基于多核学习预测增强子及其强度分类方法及分类设备。本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题。过程为:获取带标签的DNA测序序列;使用三种特征描述符进行编码转换为向量;分别对得到的向量进行特征筛选获得各自的F值,分别进行降维排序,选出各自对应的最佳的特征子集;计算每个高斯函数对应的最佳权重;构建增强子预测模型;构建强弱增强子预测模型;通过构建好的增强子预测模型和强弱增强子预测模型对待测DNA测序序列进行判断。本发明用于生物信息技术领域。
-
公开(公告)号:CN113764045B
公开(公告)日:2022-05-06
申请号:CN202111056316.9
申请日:2021-09-09
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。
-
公开(公告)号:CN113611355A
公开(公告)日:2021-11-05
申请号:CN202110950026.2
申请日:2021-08-18
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,涉及医药技术领域,针对现有技术中根据序列信息预测的二级结构,使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。
-
-
-
-
-
-
-
-
-