《表1 计算蛋白-配体原子对描述符时所考虑的距离设置变量》

《表1 计算蛋白-配体原子对描述符时所考虑的距离设置变量》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《应用机器学习方法构建药物分子解离速率常数的预测模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

我们根据406个蛋白-配体复合物三维结构模型产生描述符,并探索了不同距离阈值以及不同划分区间宽度对最终QSKR模型预测性能的影响。具体情况见表1。当距离阈值越大,划分区间宽度越小,该套描述符可产生的特征变量则越多。而采用过多的特征变量会导致模型出现过拟合问题。因此,需要过滤其中识别能力较弱的特征变量,避免削弱模型的预测能力。我们采用方差法剔除无效或较弱的特征变量,过滤方差值小于设定阈值的变量。当特征变量的方差很小时,即所有样本在该特征变量的值变化较低,提示该特征变量的识别能力较差。本工作中我们分别考察了方差阈值分别为0、1和2时,所选择的特征变量对最终QSKR模型预测能力的影响。