-
公开(公告)号:CN110544510B
公开(公告)日:2023-03-24
申请号:CN201910473254.8
申请日:2019-05-31
Applicant: 中南大学
IPC: G16B30/10
Abstract: 本发明公开了一种新的基于邻接代数模型及质量评估的contig集成方法,提出了一种新的全局打分函数,采用双端读数以及contig集合之间的比对质量,覆盖度信息contig集合进行整体打分及排序。在邻接代数模型的基础上构建邻接图,并通过提取共识序列形成节点与边。利用contig的覆盖度几GC含量信息对contig进行质量等级评估,并将评估信息用于邻接图的优化。本发明简单易用,在四组真实测序数据上表现出良好的拼接结果,较其他contig集成方法具有更高的NGA50值以及更低的错误率。
-
公开(公告)号:CN110066862A
公开(公告)日:2019-07-30
申请号:CN201910428254.6
申请日:2019-05-22
Applicant: 中南大学
IPC: C12Q1/6869
Abstract: 本发明公开了一种基于高通量测序读数的重复DNA序列识别方法,包括:由高通量测序的读数得到高频k-mer集合,根据高频k-mer集合对读数进行筛选,使得包含高频k-mer较多的读数保留下来,成为高频读数;使用序列组装工具组装高频读数,得到contigs序列;对contigs序列进行筛选,保留下的所有contigs序列即为重复DNA序列。本发明可以从高通量测序读数中识别重复DNA序列,而无需物种参考序列,可以适用于参考序列未知的物种的重复DNA序列识别,并且本发明是通过组装高频读数得到重复DNA序列,相对于组装高频k-mer得到重复DNA序列,提高了识别重复DNA序列的准确率。
-
公开(公告)号:CN110066862B
公开(公告)日:2021-02-12
申请号:CN201910428254.6
申请日:2019-05-22
Applicant: 中南大学
IPC: C12Q1/6869
Abstract: 本发明公开了一种基于高通量测序读数的重复DNA序列识别方法,包括:由高通量测序的读数得到高频k‑mer集合,根据高频k‑mer集合对读数进行筛选,使得包含高频k‑mer较多的读数保留下来,成为高频读数;使用序列组装工具组装高频读数,得到contigs序列;对contigs序列进行筛选,保留下的所有contigs序列即为重复DNA序列。本发明可以从高通量测序读数中识别重复DNA序列,而无需物种参考序列,可以适用于参考序列未知的物种的重复DNA序列识别,并且本发明是通过组装高频读数得到重复DNA序列,相对于组装高频k‑mer得到重复DNA序列,提高了识别重复DNA序列的准确率。
-
公开(公告)号:CN110544510A
公开(公告)日:2019-12-06
申请号:CN201910473254.8
申请日:2019-05-31
Applicant: 中南大学
IPC: G16B30/10
Abstract: 本发明公开了一种新的基于邻接代数模型及质量评估的contig集成方法,提出了一种新的全局打分函数,采用双端读数以及contig集合之间的比对质量,覆盖度信息contig集合进行整体打分及排序。在邻接代数模型的基础上构建邻接图,并通过提取共识序列形成节点与边。利用contig的覆盖度几GC含量信息对contig进行质量等级评估,并将评估信息用于邻接图的优化。本发明简单易用,在四组真实测序数据上表现出良好的拼接结果,较其他contig集成方法具有更高的NGA50值以及更低的错误率。
-
公开(公告)号:CN108763868A
公开(公告)日:2018-11-06
申请号:CN201810305435.5
申请日:2018-04-08
Applicant: 中南大学
IPC: G06F19/22
Abstract: 本发明提供一种DNA序列中重复区的识别方法和识别装置,其中方法包括:对构造的n‑item序列,在DNA序列中识别所述n‑item序列的出现次数;将出现次数大于预设阈值的n‑item序列作为重复区,并构造所有作为重复区的n‑item序列的n‑item序列集合;若所述n‑item序列集合中n‑item序列的个数不唯一,则根据预设规则对所述n‑item序列集合中两两之间的n‑item序列构造(n+1)‑item序列。本发明实施例只需要对构造出的DNA子序列进行识别,识别对象相比现有技术大大降低,其次获得重复区的过程也可以在识别过程中通过统计出现次数获得,识别效率得到了进一步提高,再通过预设规则从重复区中构造更长的DNA子序列,不需要将重复区先与单个碱基组合再逐个遍历整个DNA序列,能够大大提高基因组重复区的识别效率。
-
-
-
-