《表5 DNA数值特征表:DBN在蛋白质编码区识别问题中的应用研究》

《表5 DNA数值特征表:DBN在蛋白质编码区识别问题中的应用研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《DBN在蛋白质编码区识别问题中的应用研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

综上所述,利用重编码方法一共可以获得152个特征。而经过计算K-tuple的相对丰度和重编码计算的各类数值特征提取,一条无论长度为多少的DNA序列都可以用一条长度为85+152=237的数值特征序列来代替,不过这237类数值特征可能存在共线性或对编码区识别的不显著性,因此下文将会用到随机森林的方法来消除具有共线性和不显著性的特征变量。本例共有7 081条不同长度的DNA序列,经过上述转换和特征提取后,将会得到7 081×237的数字矩阵,称为原始特征矩阵,矩阵的行向量表示原始的DNA序列,列向量表示每条DNA序列的一个数值特征。具体矩阵如表5所示。