《表5 DNA数值特征表:DBN在蛋白质编码区识别问题中的应用研究》
综上所述,利用重编码方法一共可以获得152个特征。而经过计算K-tuple的相对丰度和重编码计算的各类数值特征提取,一条无论长度为多少的DNA序列都可以用一条长度为85+152=237的数值特征序列来代替,不过这237类数值特征可能存在共线性或对编码区识别的不显著性,因此下文将会用到随机森林的方法来消除具有共线性和不显著性的特征变量。本例共有7 081条不同长度的DNA序列,经过上述转换和特征提取后,将会得到7 081×237的数字矩阵,称为原始特征矩阵,矩阵的行向量表示原始的DNA序列,列向量表示每条DNA序列的一个数值特征。具体矩阵如表5所示。
图表编号 | XD00119715800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.15 |
作者 | 胡青渝、刘广臣 |
绘制单位 | 鲁东大学数学与统计科学学院、重庆大学数学与统计学院、鲁东大学数学与统计科学学院 |
更多格式 | 高清、无水印(增值服务) |