《表1 Hi-C数据标准化方法》
Hi-C数据标准化用以移除生物实验过程中由各种不可避免的非随机因素所引入的样本间的系统偏差,是后续分析处理的数据质量前提。近年来,诸多Hi-C数据标准化方法陆续被提出。2011年,Yaffe等[21]提出一种基于集成概率模型的标准化方法,其通过序列片段长度、GC含量和序列映射得到先验概率,采用最大似然估计法确定模型参数。2012年,Cournac等[22]提出序列性组件标准化(sequential component normalization,SCN)方法,通过对单染色体接触矩阵的行列归一化产生标准化的双随机矩阵。2012年,Hu等[23]提出基于泊松回归模型的HiCNorm方法,在考虑序列片段长度、GC含量和序列映射3种因素的情况下,将回归后的残差作为标准化后的接触矩阵。2012年,Imakaev等[24]提出了面向全基因组的迭代修正和特征向量分解(iterative correction and eigenvector decomposition,ICE)方法,基于交互频率库规模等量和偏差分解思想进行接触矩阵的快速标准化。2013年,Knight等[25]提出一种矩阵平衡的数学方法(knight-ruiz,KR),后被广泛应用于Hi-C接触矩阵的标准化当中。2016年,Wu等[26]提出一种通过移除拷贝数偏差(copy number bias)对原ICE标准化进行改进的caICB方法。2018年,Stansfield等[27,28]提出基于局部加权线性回归的双样本标准化方法HiCcompare,并在2019年将其升级为有能力处理多组重复性样本的MultiHiCcompare方法。2019年,Spill等[29]提出基于负二项回归模型的Binless方法,其不依赖于接触矩阵分辨率,可在配对末端序列片段水平上进行Hi-C数据标准化。各主要Hi-C数据标准化方法如表1所示。目前,除Binless之外,Hi-C数据的标准化均是在接触矩阵水平上展开。接触矩阵上的标准化方法按照是否考虑系统偏差的具体来源类型可分为显式和隐式标准化,前者如HiCNorm和caICB,后者如SCN、ICE、KR、HiC-compare和MultiHiCcompare,其按照各样本间是否存在数据交互又可分为单样本和跨样本标准化,前者如SCN、HiCNorm、ICE、KR和caICB,后者如HiCcompare和MultiHiCcompare。
图表编号 | XD00126841500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.01 |
作者 | 吕红强、郝乐乐、刘二虎、吴志芳、韩九强、刘源 |
绘制单位 | 西安交通大学电子与信息工程学院、西安交通大学电子与信息工程学院、西安交通大学电子与信息工程学院、西安交通大学电子与信息工程学院、西安交通大学电子与信息工程学院、西安交通大学电子与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |