《表1 剔除信息缺失序列后的外显子和内含子数据分布表》
对于蛋白质编码区的识别问题,本文主要是对真核生物的DNA序列进行判别分析,因此使用的数据也是真核生物的DNA序列,包括BG570、HMR195以及GENSCAN65数据。数据的主要来源是BG570数据集(http://www1.imim.es/databases/genomics96/),HMR195数据集(http://www.cs.ubc.ca/~rogic/evaluation/),GEN-SCAN65数据集(http://www.ncbi.nlm.nih.gov/nuccore/FO081497),这里统称它们为原始数据。因为原始数据中有部分DNA序列是小于20bp的,这些数据包含的信息是不全面的,所以本文首先将这些数据从数据集中剔除,然后从原始数据中选取长度为20bp以上的外显子和内含子。新建的基本数据集中外显子和内含子的个数如表1所示。
图表编号 | XD00119717200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.15 |
作者 | 胡青渝、刘广臣 |
绘制单位 | 鲁东大学数学与统计科学学院、重庆大学数学与统计学院、鲁东大学数学与统计科学学院 |
更多格式 | 高清、无水印(增值服务) |