-
公开(公告)号:CN117894376A
公开(公告)日:2024-04-16
申请号:CN202410095024.3
申请日:2024-01-23
Applicant: 厦门大学
Abstract: 本发明涉及单细胞相关技术数据分析技术领域,具体涉及一种基于自然语言处理的单细胞数据分析方法;S1、对单细胞文本数据集进行预处理及质量控制,得到单细胞测序数据;S2、通过自然语言处理技术,对单细胞测序数据进行特征提取,得到原始数据矩阵;S3、通过Specter聚类方法对原始数据矩阵进行聚类分析,得到最终聚类结果。本发明通过自然语言处理方法识别大规模文档单细胞测序数据中潜藏的语义信息,根据自然语言处理方法的结果来挖掘单细胞相关技术中的潜在信息,通过Specter聚类方法对原始数据矩阵进行聚类分析,得到最终聚类结果,解决了参数敏感性问题,提高了聚类的准确性,该算法在实际应用中具有较高的应用价值。
-
公开(公告)号:CN115171793A
公开(公告)日:2022-10-11
申请号:CN202210883046.7
申请日:2022-07-26
Applicant: 厦门大学
Abstract: 本发明公开了一种TCR序列编码可视化方法,包括以下步骤:S1、获取TCR测序数据并进行预处理;S2、基于预处理后的TCR测序数据,生成训练数据;S3、搭建深度学习模型,使用训练数据对深度学习模型进行训练;S4、设置深度学习模型的输出层,将TCR编码为数据点并进行可视化;该TCR序列编码可视化方法保留不同TCR分子的相似性,将TCR序列编码到高维欧式空间中,使相似的TCR在嵌入空间中排列更加紧密,并将其映射到低维空间进行可视化,可为潜在特异性TCR的鉴别提供新的途径。
-
公开(公告)号:CN111260061A
公开(公告)日:2020-06-09
申请号:CN202010157458.3
申请日:2020-03-09
Applicant: 厦门大学
IPC: G06N3/08
Abstract: 本发明公开了一种联邦学习梯度交换中的差异化加噪方法、介质及系统,其中方法包括:多个数据方分别获取对应的训练数据集,并分别根据对应的训练数据集对深度学习模型进行训练,以更新深度学习模型的梯度;每个数据方将对应的梯度进行分层处理,并计算每一层梯度对应的二范数,以及根据二范数对每一层梯度进行加噪,并将加噪后的梯度发送至中心服务器;中心服务器对加噪后的梯度进行聚合,并将聚合后的梯度发送给每个数据方,以便每个数据方根据聚合后的梯度对本地深度学习模型进行更新;能够提高联邦学习的数据交换过程中隐私的保护强度,同时,相较于传统联邦学习中加密算法,可以降低数据传输的开销。
-
公开(公告)号:CN110491499A
公开(公告)日:2019-11-22
申请号:CN201910620638.8
申请日:2019-07-10
Applicant: 厦门大学
Abstract: 本发明提出了一种面向标注电子病历的临床辅助决策方法及系统,其中,该方法包括:获取患者的电子病历信息,然后对电子病历信息进行数据预处理,再根据电子病历信息中的诊断结果对每个患者进行加标签,作为每个患者的预测标签,再通过中文自然语言处理技术对电子病历信息中患者的主诉、现病史、体检合格三个特征字段进行处理,从而获得标注为症状的词向量,接着将标注为症状的词向量作为输入,根据预测标签,进行LSTM神经网络训练,以获得辅助决策模型,最后根据当前患者的电子病历和辅助决策模型对当前患者的疾病进行辅助决策。由此,在通过LSTM神经网络训练辅助决策模型前先进行标注,可以更好的提供关键症状信息,从而提高决策的准确率。
-
公开(公告)号:CN117746995B
公开(公告)日:2024-05-28
申请号:CN202410194014.5
申请日:2024-02-21
Applicant: 厦门大学
IPC: G16B40/00 , G16B30/00 , G06F16/35 , G06N3/0455 , G06F18/22 , G06F18/2415
Abstract: 本申请的实施例提供了一种基于单细胞RNA测序数据的细胞类型识别方法、装置及设备。该方法包括:获取并预处理单细胞RNA测序训练数据集;采用与数据来源对应的文本模板生成每一细胞样本对应的文本描述;将每一细胞样本对应的基因测序数据和文本描述分别输入至RNA编码器和文本编码器,得到对应的基因嵌入和文本嵌入;构建损失函数,以进行模型优化;将待识别细胞对应的基因测序数据经过预处理后,输入至RNA编码器,并将其可能的细胞类型对应的文本描述输入至文本编码器,得到目标基因嵌入和若干待匹配文本嵌入,进而确定待识别细胞对应的细胞类型。本申请实施例的技术方案可以有效区分不同细胞之间的差异性,提高细胞类型识别结果的准确性。
-
公开(公告)号:CN116052779A
公开(公告)日:2023-05-02
申请号:CN202310062002.2
申请日:2023-01-16
Applicant: 厦门大学
Abstract: 本发明公开了一种融合基因和序列信息的适应性免疫受体预测方法,包括以下步骤:S1、将SC‑AIR‑BERT模型进行修改,构建SC‑AIR‑BERT‑Multi模型;所述SC‑AIR‑BERT‑Multi模型含有一个基因信息提取通道、一个序列信息提取通道、一个多模态融合模块,以及两个用于进行多任务学习的多层感知器;S2、在基因信息提取通道中,以基因名称作为输入,得到免疫细胞受体的基因特征hgene;S3、在序列信息提取通道中,以TCR序列或BCR序列为输入,得到免疫细胞受体的序列特征hseq;S4、将V、D、J基因片段的基因特征和序列特征送入多模态特征融合模块进行融合,并产生融合后的特征;S5、通过两个多层感知器将步骤S4中学习到多模态的受体特征Representation映射到最终的TCR或BCR抗原结合特异性预测和亲和力预测的结果进行预测。
-
公开(公告)号:CN116010801A
公开(公告)日:2023-04-25
申请号:CN202211658178.6
申请日:2022-12-22
Applicant: 厦门大学
IPC: G06F18/213 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种t‑SNE降维优化方法,包括以下步骤:S1、搭建分布式训练环境;S2、读取高维数据文件,并对其进行预处理;S3、随机采样部分预处理后的数据当作训练集,计算训练集的t‑SNE结果并将其作为标签;S4、搭建神经网络模型,并进行分布式训练;S5、采用训练后的神经网络模型预测步骤S3未采样的预处理后的数据,再将预测结果进行可视化;本发明将深度学习和大数据处理进行结合,能够分布式训练神经网络模型,可缩短t‑SNE的计算时间,并且有着处理大型数据集的能力。
-
公开(公告)号:CN115937586A
公开(公告)日:2023-04-07
申请号:CN202211567341.8
申请日:2022-12-07
Applicant: 厦门大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于CLIP的开集类器官定位识别方法,包括以下步骤:S1、获取类器官数据,并对其进行预处理;S2、基于CLIP模型搭建端到端的定位识别模型;S3、将预处理后的类器官数据送入定位识别模型中进行推理;S4、将推理结果还原至原图像上,再进行非极大值抑制处理,实现类器官的定位识别;本发明将CLIP模型引入类器官定位识别任务中,使得原有的Faster‑RCNN定位识别模型在保留端到端、高精度等优点的前提下,在训练及推理阶段不需要人为的特异化设计,可兼顾模型性能,提升算法效率,可以在保证对于已知类别数据的定位识别性能的同时,对未知类别数据也具有一定的定位识别能力,即有助于新型类别的定位识别,提高了模型的泛化能力。
-
公开(公告)号:CN115496121A
公开(公告)日:2022-12-20
申请号:CN202210466824.2
申请日:2022-04-29
Applicant: 厦门大学
Abstract: 本发明公开了一种基于联邦学习的模型训练方法及装置,其中方法包括:在每轮通信中,服务器获取用户上传的模型参数和训练损失,并更新用户历史梯度列表,其中用户历史梯度列表包括所有用户最新的梯度和该梯度所属的轮数;服务器计算出当前轮采样到的用户的平均梯度;服务器计算出当前轮未采样到的用户历史梯度中与平均梯度两两之间余弦夹角值中的最小值,通过一个带约束的非线性规划目标函数优化得到该轮更新的全局梯度,从而得到最终聚合后的模型;由此,在不损害未采样到的用户模型的前提下优化了全局模型,提升了模型在当前轮对未采样到的用户的代表性,降低了服务器选择用户时的采样偏差的负面影响,从而提高了联邦学习模型的准确度和公平性。
-
公开(公告)号:CN114067910A
公开(公告)日:2022-02-18
申请号:CN202111346883.8
申请日:2021-11-15
Applicant: 厦门大学
IPC: G16B30/00 , G06F9/50 , G06F16/182 , G06F16/172
Abstract: 本发明公开了一种基于UMI‑tools和Spark的单细胞上游大数据处理方法,包括如下步骤:S1、通过HadoopBAM的接口读取FASTQ R1和FASTQ R2文件,并分别抽象为FASTQ R1数据集和FASTQ R2数据集;S2、从FASTQ R2数据集筛选出待处理的FASTQ数据集;S3、利用软件STAR将待处理的FASTQ数据集转化为SAM数据集;S4、读取GTF数据集和SAM数据集,分别根据各自记录中的染色体名进行聚合分组,得到GTF数据集组和SAM数据集组;S5、将GTF数据集组和SAM数据集组中具有相同染色体名的SAM记录和GTF记录进行拼接,并计数;S6、将计数的结果保存为结果文件。本发明大大减少了不必要的中间读写过程,提高数据处理的效率。
-
-
-
-
-
-
-
-
-