《表1 GBDT算法模型参数的最佳值》
对于模型参数,GBDT算法主要有损失函数、每棵树深度、弱回归树棵树和学习率4个参数需要选择。损失函数常用的主要有最小二乘、最小绝对值差值、Huber损失和分位数损失,结合本研究数据波动较大,而Huber损失函数对异常值的抗干扰能力强,因此本研究选用Huber损失函数。然后确定每棵树深度,在数据量不大的情况下,树深度一般在3~6之间选取,树深度较高很容易导致模型过拟合[18],即模型过度学习训练集特征导致对新数据的预测效果变差,表现在训练误差降低而测试误差反而增加。接着确定弱回归树棵树,在10、100、1000三个数量级上选取范围,为了找到最佳值,使用网格搜索方法[20],以10(或50)为增量搜索确定。最后确定学习率,在0.001、0.01、0.1数量级上选取,然后逐步缩小范围,直至在保证模型没有过拟合的前提下测试误差最低,即为模型最佳参数。3种质量软测量模型参数的最佳值如表1所示。模型的测试结果如图3所示。
图表编号 | XD00179881200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.01 |
作者 | 江伦、满奕、李继庚、洪蒙纳、孟子薇、朱小林 |
绘制单位 | 华南理工大学制浆造纸工程国家重点实验室、华南理工大学制浆造纸工程国家重点实验室、深圳新益昌科技股份有限公司、华南理工大学制浆造纸工程国家重点实验室、华南理工大学制浆造纸工程国家重点实验室、华南理工大学制浆造纸工程国家重点实验室、华南理工大学制浆造纸工程国家重点实验室 |
更多格式 | 高清、无水印(增值服务) |