一种基于单细胞多组学数据进行细胞类型划分的方法

    公开(公告)号:CN119446253A

    公开(公告)日:2025-02-14

    申请号:CN202411290050.8

    申请日:2024-09-14

    Abstract: 本发明涉及一种基于单细胞多组学数据进行细胞类型划分的方法,属于生物信息学技术领域。解决常用技术形成的高噪声和高稀疏性的问题。包括如下步骤,步骤一,构建深度神经网络模型,步骤二,获取单细胞多组学综合数据集,步骤三,对所述单细胞多组学数据集进行预处理,步骤四,基于预处理后的单细胞多组学数据集对深度神经网络模型进行训练,步骤五,基于训练后的深度神经网络模型对待测数据进行细胞类型划分。本发明提出scDRMAE模型,通过两个并行的MAE模块捕捉不同组学的依赖关系,将通常被忽略的因素考虑到细胞聚类之中并借助其中的掩码预测机制实现了对不同组学数据的插补,最后通过注意力机制有效融合各个组学数据,提高了模型细胞聚类的准确性。

    基于多模态和多任务的药物副作用的频率分数预测方法

    公开(公告)号:CN116504331B

    公开(公告)日:2024-07-26

    申请号:CN202310479801.X

    申请日:2023-04-28

    Abstract: 基于多模态和多任务的药物副作用的频率分数预测方法,本发明涉及深度学习技术预测药物副作用的频率分数方法。本发明的目的是为了解决现有的计算方法对药物和副作用关联关系判别准确率低,以及对药物和副作用的频率分数预测准确率低的问题。过程为:一、获得药物分子的化学结构语义特征、药物分子的化学序列语义特征、药物的生物医学文本特征和副作用的生物医学文本特征;得到药物副作用对;二、计算药物的相似性信息和副作用的相似性信息;得到药物副作用对;三、将学习到的药物副作用对串联送入多层感知机进行预测,预测药物和副作用间是否存在关联并且存在关联时药物和副作用的频率分数。本发明属于药物与副作用之间的频率预测技术领域。

    基于深度自动编码器的lncRNA-蛋白质相互作用预测方法

    公开(公告)号:CN115547407A

    公开(公告)日:2022-12-30

    申请号:CN202211287199.1

    申请日:2022-10-20

    Abstract: 基于深度自动编码器的lncRNA‑蛋白质相互作用预测方法,涉及生物信息学领域。本发明是为了解决现有lncRNA‑蛋白质相互作用预测方法还存在特征表达能力低导致的样本在特征空间的分布区别不大,进而导致lncRNA‑蛋白质相互作用的预测准确率低的问题。本发明包括:获取待预测的lncRNA初始特征和蛋白质初始特征,并将待预测的lncRNA初始特征和蛋白质初始特征输入到训练好的lncRNA‑蛋白质相互作用预测模型中,获得相互作用预测结果;本发明利用边际Fisher分析方法学习lncRNA‑蛋白质相互作用样本的最优分类特征,提高了lncRNA‑蛋白质相互作用预测的准确率。本发明用于预测lncRNA‑蛋白质相互作用关系。

    基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

    公开(公告)号:CN113764043B

    公开(公告)日:2022-05-20

    申请号:CN202111063261.4

    申请日:2021-09-10

    Abstract: 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备,本发明涉及囊泡转运蛋白识别方法及识别设备。本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题。过程为:S1、获取蛋白序列数据文件;S2、基于S1生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;S3、使用不平衡处理算法得到处理后的特征向量;S4、采用MRMD算法得到特征向量集合;S5、采用XGBoost作为分类器,并进行超参数优化;S6、得到训练好的分类器模型;S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。本发明用于蛋白识别领域。

    基于有监督的协同图对比学习的药物-靶标相互作用预测方法

    公开(公告)号:CN114023464A

    公开(公告)日:2022-02-08

    申请号:CN202111323363.5

    申请日:2021-11-08

    Abstract: 基于有监督的协同图对比学习的药物‑靶标相互作用预测方法,它属于药物与靶标关系预测技术领域。本发明解决了传统机器学习方法需要依赖繁琐手工进行特征提取以及模型存在过多繁杂步骤的问题。本发明的药物‑靶标相互作用预测方法使用图对比学习来增强模型的学习能力,在整个预测的过程中,不需要人工进行操作,即不依赖繁琐手工进行特征提取,并应用端到端的思想减少了模型的处理步骤,降低了模型的复杂度,同时保证了较高的预测准确率。通过实验得到,本发明预测方法的Roc曲线下面积可以达到0.9764,PR曲线下面积可以达到0.9761。本发明可以用于对药物与靶标关系进行预测。

    基于深度学习的nanopore测序数据碱基识别方法

    公开(公告)号:CN113870949A

    公开(公告)日:2021-12-31

    申请号:CN202111172443.5

    申请日:2021-10-08

    Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。

    基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备

    公开(公告)号:CN113764043A

    公开(公告)日:2021-12-07

    申请号:CN202111063261.4

    申请日:2021-09-10

    Inventor: 汪国华 宫越 邹权

    Abstract: 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备,本发明涉及囊泡转运蛋白识别方法及识别设备。本发明的目的是为了解决现有囊泡转运蛋白的识别方法效率低、成本高的问题。过程为:S1、获取蛋白序列数据文件;S2、基于S1生成位置特异性得分矩阵,并采用AATP算法从位置特异性得分矩阵中提取特征向量;S3、使用不平衡处理算法得到处理后的特征向量;S4、采用MRMD算法得到特征向量集合;S5、采用XGBoost作为分类器,并进行超参数优化;S6、得到训练好的分类器模型;S7、将待测数据集输入训练好的分类器模型得到分类结果,完成对囊泡转运蛋白的识别。本发明用于蛋白识别领域。

    一种与细胞通讯相关高度可变基因的识别方法

    公开(公告)号:CN120032714A

    公开(公告)日:2025-05-23

    申请号:CN202311550340.7

    申请日:2023-11-21

    Abstract: 本发明公开提供一种与细胞通讯相关高度可变基因的识别方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后使用Seurat的函数对scRNA‑seq数据中的基因表达信息和ST数据中的空间细胞坐标信息进行筛选和提取,并对基因表达信息进行主成分分析。从而使用多元线性回归模型CPPLS对这两种信息进行拟合,构建出细胞通讯网络。首先先将细胞通讯网络中的基因表达水平与人类基因组和小鼠基因组的表达水平进行对比,得到细胞通讯对基因表达的影响。后续使用有向图的特征,对数据集中每两种细胞类型之间的关系进行分析,并且基于GeneCards、GO等官方数据库中记录的基因功能,为参与细胞网络构建的基因打标签,最后基于标签使用神经网络模型MLP对基因进行预测和分类,即可以识别与细胞通讯相关高度可变基因;该方法综合了单细胞及空间转录组学数据的信息,并且基于先验知识的准确性,因此可以精确识别与细胞通讯相关高度可变基因。

    一种细胞空间组成的推断方法
    9.
    发明公开

    公开(公告)号:CN119626311A

    公开(公告)日:2025-03-14

    申请号:CN202311180921.6

    申请日:2023-09-14

    Abstract: 本发明公开提供一种细胞空间组成的推断方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后利用scRNA‑seq数据集来模拟每个测序位点(spot)上的细胞混合物构建称为“伪ST”的合成ST数据,使用Seurat的IntegrateData方法将制作的伪ST数据和真实ST数据整合,以消除二者之间的批次效应,提高数据一致性和可比性,接着利用随机投影森林构建带权邻接矩阵来精确表示伪ST和真ST之间的拓扑关系,将特征和带权邻接矩阵一起导入GAT模型中,可以推断空间转录组学中每个位置的细胞类型组成;该方法充分利用了scRNA‑seq数据和ST数据之间的拓扑关系,因此可以更加精确的推断细胞空间组成。

    一种多通道注意力机制的lncRNA-miRNA关联预测方法

    公开(公告)号:CN119207579A

    公开(公告)日:2024-12-27

    申请号:CN202411209235.1

    申请日:2024-08-30

    Abstract: 一种多通道注意力机制的lncRNA‑miRNA关联预测方法,涉及一种lncRNA‑miRNA关联预测方法。为了解决现有方法未能恰当地融合多种数据源的特征表示且未能通过对比学习方法学习样本之间的相似性和差异性,导致可能没有学习到更加有效和鲁棒的特征表示的问题。本发明得到lncRNA和miRNA的多源数据并计算得到多种相似性矩阵和编码矩阵;结合图卷积网络和Transformer,从局部和全局两个角度捕捉信息;利用多通道的注意力机制来融合不同数据源的特征表示;并引入对比学习方法进一步优化特征表示,确保相同lncRNA或miRNA的不同模态特征之间的一致性,增强模型的辨别能力;最终预测阶段利用KAN得到lncRNA‑miRNA关联的预测得分,进一步提高了参数和计算效率。

Patent Agency Ranking