《表1 注释基因文件说明Tab.1 Information of ref Gene.txt》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于Weka平台的分类算法在启动子识别中的应用》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文首先从UCSC基因组浏览器上获取人类基因组g19版本的注释基因数据，其主要包含信息见表1。研究时，对注释基因可根据以下条件进行预处理:转录起始位点唯一且转录起始位点上下游各10 kbp的区域内不包含其它基因任何位点的基因，最后得到7 732个符合条件的基因。然后依然从UCSC中下载细胞系H1-hesc的2个全细胞RNA-seq测序数据文件以及该细胞系的RNA聚合酶II的Ch IP-Seq数据（版本号为wg Encode EH000563）。最后，从基因表达综合数据库（Gene Expresion Omnibus，GEO）中下载细胞系H1-hesc的6种组蛋白修饰（与活跃启动子相关的H3K9ac、H3K27ac和H3K4me1/2/3以及与非活跃启动子相关的H3K27me3）数据。由于从GEO中直接下载的组蛋白修饰数据的BED文件都是比对到人类基因组g18的，而本文其余的数据都是基于g19的，因此这里需要对组蛋白修饰数据利用UCSC的Lift Over工具设计进行不同版本之间的基因组坐标转换。

图表编号	XD0015514900 严禁用于非法目的
绘制时间	2018.04.28
作者	蒋璐凯
绘制单位	哈尔滨工业大学计算机科学与技术学院
更多格式	高清、无水印（增值服务）