《基于多维大数据的复杂基因组组装平台开发与应用研究》

点击下载 ⇩

该成果属于基因组学领域。基因组承载着生物体的遗传信息,利用基因组全序列信息进行生物功能研究已经成为快速作用于分子育种、功能基因挖掘的有效技术手段。但现有基因组组装方法和策略在应对大型复杂基因组组装上仍具有一定局限性。

该研究成果主要基于二、三代高通量测序获得的读长(reads)序列信息,开展了大型复杂基因组组装技术的开发与应用研究,开发了更快更准确的基因组装配方案,针对测序数据纠错、原始测序read延长、局部组装、构建遗传图谱染色体定位、Hi-C辅助纠错组装等关键技术难点,形成了具有自主知识产权的系列核心技术。

主要创新点包括:

1.创新性地将图论技术应用到高杂合物种二代测序纠错、super-read构建。消除了高通量测序带来的错误,突破了原有的利用最小数据单元进行数据纠错方式,提升了测序read边缘的纠错效率;super-read构建使组装前期使用的序列单元长度大幅提升3~5倍,极大提升了后期的基因组组装效果。

2.开发出基于图论组装算法的GNOVO优化基因组组装软件,简化了基因组组装整体复杂度,降低了重复序列处理的难度,从而大大提升了复杂基因组组装的效果。

3.在染色体定位方面,创新性的开发出基因组简化测序技术-SLAF-seq(Specific-Locus Amplified Fragment Sequencing)技术,通过该技术对基因组进行简化并批量开发分子标记,构建高质量高密度的遗传图谱辅助基因组组装,最终得到染色体水平的基因组序列。

4.率先结合三代测序技术-英国牛津纳米孔公司的光学图谱技术和美国太平洋生物公司的单分子测序技术,对NGS进行连接、错误纠正,使Scaffold N50由原先的上百kb提高到Mb级别,大大的提升了基因组拼接的准确性和组装水平。

5.建立了一套有效提高Hi-C文库有效数据产量的染色质交联体系和限制性内切酶选择体系,并首次构建了Hi-C辅助基因组组装及自动纠错平台,通过bin序列局部组装识别原始contig中的组装错误;提出并实现了局部组装的方案,减少大基因组中的信号值干扰;开发了一套热图区块识别算法,可有效识别热图中组装错误边界;开发了一个热图手动调整工具,在单个界面中实现热图的快速展示、坐标提取和块调整功能。

该成果发表SCI论文15篇,授权7项发明专利,申请29项软件著作权,应用该技术已成功完成猕猴桃、四倍体芥菜、亚洲棉、石榴等35个大型复杂基因组的组装项目,该项目成果为基因组研究领域提供了一套完整的基因组组装策略。

  1. 下载详细PDF版/Doc版

提示:为方便大家复制编辑,博主已将PDF文件制作为Word/Doc格式文件。