-
公开(公告)号:CN108897990B
公开(公告)日:2021-10-29
申请号:CN201810575946.9
申请日:2018-06-06
Applicant: 东北大学
Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。
-
公开(公告)号:CN108897990A
公开(公告)日:2018-11-27
申请号:CN201810575946.9
申请日:2018-06-06
Applicant: 东北大学
Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维序列数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的序列数据;将与目标类相关的序列数据执行细粒度的特征过滤;以g为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。
-