-
公开(公告)号:CN112016597B
公开(公告)日:2023-07-18
申请号:CN202010805545.5
申请日:2020-08-12
Applicant: 河海大学常州校区
IPC: G06F18/21 , G06F18/2415 , G06N3/048
Abstract: 本发明公开了一种机器学习中基于贝叶斯不平衡度量的深度采样方法。首先利用贝叶斯不平衡度量,对多组数据集中少数样本的不平衡度和数据集的不平衡度进行准确表达;确定数据集的不平衡度后,设置多组阈值,在每组阈值下对样本不平衡度高于该阈值的样本进行过采样,通过分类算法测试各组阈值下数据集的分类性能,从而筛选出最优阈值;最后利用神经网络学习最优阈值与数据集不平衡度之间的映射关系,在对新数据集进行过采样时,利用该神经网络对阈值的设置进行指导,实现精确的定向合成。
-
公开(公告)号:CN110310700B
公开(公告)日:2022-09-13
申请号:CN201910587672.X
申请日:2019-07-02
Applicant: 河海大学常州校区
Abstract: 本发明公开了一种基于深度学习模型的Illumina 450K DNA甲基化芯片谱数据诊断标志物的筛选方法,涉及到体外无创肿瘤细胞全基因组甲基化水平测序的分析方法流程,具有高自动化程度,高集成化程度,与高诊断准确性,大大减少了检测诊断的周期。设计步骤涉及全基因组染色体褪火、剪切重组等肿瘤组织样本获取以及甲基化芯片的制备和数据读取等数据前期获取集成部分,位点注释信息的编码,无监督学习方式的位点压缩以及有监督方式的标志物筛选以及诊断模型建模。本发明针对非小细胞肺癌(NSCLC)中的肺腺癌(LUAD)具有特异性。该发明运用了最新的基因组测序技术,结合深度学习方法,充分发挥算法优势,减少临床实验工作量,改进了现有的生物医学诊疗领域的分子检测方法。
-
公开(公告)号:CN112016597A
公开(公告)日:2020-12-01
申请号:CN202010805545.5
申请日:2020-08-12
Applicant: 河海大学常州校区
Abstract: 本发明公开了一种机器学习中基于贝叶斯不平衡度量的深度采样方法。首先利用贝叶斯不平衡度量,对多组数据集中少数样本的不平衡度和数据集的不平衡度进行准确表达;确定数据集的不平衡度后,设置多组阈值,在每组阈值下对样本不平衡度高于该阈值的样本进行过采样,通过分类算法测试各组阈值下数据集的分类性能,从而筛选出最优阈值;最后利用神经网络学习最优阈值与数据集不平衡度之间的映射关系,在对新数据集进行过采样时,利用该神经网络对阈值的设置进行指导,实现精确的定向合成。
-
公开(公告)号:CN110322928A
公开(公告)日:2019-10-11
申请号:CN201910757150.X
申请日:2019-08-16
Applicant: 河海大学常州校区
IPC: G16B20/30
Abstract: 本发明公开了一种DNA甲基化谱检测方法,对全基因组DNA甲基化信息样本进行统计处理及注释处理,得到全基因组DNA甲基化注释信息,对全基因组DNA甲基化注释信息进行编码,对单甲基化数据进行加窗处理,对窗内各位点分别进行位置与甲基化值建模训练,得到甲基化值预测模型;利用已建立的预测模型按照预设的甲基化谱窗对待测染色体进行逐移预测,得到待测染色体指定位置点的甲基化值。优点:本发明首次提出加窗法结合深度学习算法的思想,通过位点的各类前期标注信息,从而来提高精度,可有效确保辨识分辨模型的可靠性;弥补了工艺上的不足,提高了工艺的精度。
-
公开(公告)号:CN110322928B
公开(公告)日:2022-09-13
申请号:CN201910757150.X
申请日:2019-08-16
Applicant: 河海大学常州校区
IPC: G16B20/30
Abstract: 本发明公开了一种DNA甲基化谱检测方法,对全基因组DNA甲基化信息样本进行统计处理及注释处理,得到全基因组DNA甲基化注释信息,对全基因组DNA甲基化注释信息进行编码,对单甲基化数据进行加窗处理,对窗内各位点分别进行位置与甲基化值建模训练,得到甲基化值预测模型;利用已建立的预测模型按照预设的甲基化谱窗对待测染色体进行逐移预测,得到待测染色体指定位置点的甲基化值。优点:本发明首次提出加窗法结合深度学习算法的思想,通过位点的各类前期标注信息,从而来提高精度,可有效确保辨识分辨模型的可靠性;弥补了工艺上的不足,提高了工艺的精度。
-
公开(公告)号:CN110310700A
公开(公告)日:2019-10-08
申请号:CN201910587672.X
申请日:2019-07-02
Applicant: 河海大学常州校区
Abstract: 本发明公开了一种基于深度学习模型的Illumina 450K DNA甲基化芯片谱数据诊断标志物的筛选方法,涉及到体外无创肿瘤细胞全基因组甲基化水平测序的分析方法流程,具有高自动化程度,高集成化程度,与高诊断准确性,大大减少了检测诊断的周期。设计步骤涉及全基因组染色体褪火、剪切重组等肿瘤组织样本获取以及甲基化芯片的制备和数据读取等数据前期获取集成部分,位点注释信息的编码,无监督学习方式的位点压缩以及有监督方式的标志物筛选以及诊断模型建模。本发明针对非小细胞肺癌(NSCLC)中的肺腺癌(LUAD)具有特异性。该发明运用了最新的基因组测序技术,结合深度学习方法,充分发挥算法优势,减少临床实验工作量,改进了现有的生物医学诊疗领域的分子检测方法。
-
-
-
-
-