《表5 特征变量相关性:基于机器学习模型的专利质量预测初探》
第二,线性相关问题。计量模型中,最小二乘回归法会选择一条唯一的回归线,满足数据集的整体残差平方和达到最小值。越来越多的模型被不断加入自变量参数。而自变量之间的线性相关会导致模型参数估计得不稳定或不易解释[27]。如表5所示,本文所采用的专利特征变量之间,如引证专利数量(nBWD)和引证专利的其他特征之间存在明显的线性相关。对此,机器学习模型的正则化思想能够解决自变量相关问题,即在参数估计的目标优化方程中加入涉及模型复杂度的惩罚项,避免预测模型的过度拟合,并且提高模型预测的准确度。
图表编号 | XD0039055500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.24 |
作者 | 刘夏、黄灿、余骁锋 |
绘制单位 | 浙江大学管理学院知识产权管理研究所、浙江大学管理学院知识产权管理研究所、香港科技大学计算机科学及工程学系 |
更多格式 | 高清、无水印(增值服务) |