《表1 不同类别的结构域在训练集和验证集中的数目》
为了构建蛋白质接触图数据库,首先需要获取包含有蛋白质结构域中全部原子空间坐标的蛋白质PDB文件.通过对SCOPe(2.07版本)和ASTRAL(2.07版本)数据库[13]进行检索和筛选,共获得包含30185个蛋白质结构域的PDB文件以及它们所对应的在类层次和折叠类型层次上的SCOPe分类信息.这些结构域之间的序列相似度不超过95%,保证了训练样本的精简程度,避免因大量样本过于相似而产生的过拟合现象.蛋白质的接触图数据库被分为包含27000个蛋白质结构域的测试集和包含3185个蛋白质结构域的验证集,其中不同类的结构域数目如表1所示.在训练集和测试集中对不同折叠类型进行随机筛选,并保证两者相对比例相似,以避免数据分布带来的偏差.
图表编号 | XD00192295900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.30 |
作者 | 潘越、王骏、李文飞、张建、王炜 |
绘制单位 | 南京大学物理学院、南京大学物理学院、南京大学脑科学研究院、南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系、南京大学物理学院、南京大学脑科学研究院、南京大学物理学院、南京大学脑科学研究院、南京大学物理学院、南京大学脑科学研究院 |
更多格式 | 高清、无水印(增值服务) |