《表1 注释基因文件说明Tab.1 Information of ref Gene.txt》

《表1 注释基因文件说明Tab.1 Information of ref Gene.txt》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Weka平台的分类算法在启动子识别中的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文首先从UCSC基因组浏览器上获取人类基因组g19版本的注释基因数据,其主要包含信息见表1。研究时,对注释基因可根据以下条件进行预处理:转录起始位点唯一且转录起始位点上下游各10 kbp的区域内不包含其它基因任何位点的基因,最后得到7 732个符合条件的基因。然后依然从UCSC中下载细胞系H1-hesc的2个全细胞RNA-seq测序数据文件以及该细胞系的RNA聚合酶II的Ch IP-Seq数据(版本号为wg Encode EH000563)。最后,从基因表达综合数据库(Gene Expresion Omnibus,GEO)中下载细胞系H1-hesc的6种组蛋白修饰(与活跃启动子相关的H3K9ac、H3K27ac和H3K4me1/2/3以及与非活跃启动子相关的H3K27me3)数据。由于从GEO中直接下载的组蛋白修饰数据的BED文件都是比对到人类基因组g18的,而本文其余的数据都是基于g19的,因此这里需要对组蛋白修饰数据利用UCSC的Lift Over工具设计进行不同版本之间的基因组坐标转换。