《表6 随机森林模型预测结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于机器学习模型的专利质量预测初探》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文首先将85.1250万个样本数据随机分为训练集和测试集两部分，分别占比70%以及30%。表6显示了对2010—2011年国家知识产权局受理的85万专利申请的质量预测结果。首先，表6左半部分对是否获得后续引用（FWD）进行了预测，第二部分依据后续引用数量的三个层级（FWD＿Type）进行预测。整体上，决策树深度的增长虽然能够显著提升训练集内样本的拟合度，但是对于测试样本的预测，因为过度拟合而产生错误的判断，从而导致预测准确率的下降。整体上，基于本文的专利样本，10层级决策树模型是最优结果，对测试集的预测准确率为0.57，基本上能预测出全部的有后续专利引用的情况。但是，如同表6右半部分结果所显示的，模型对于FWD＿Type的预测能力较弱，尤其是对于后引数量大于4的FWD＿Type=2的高质量专利的预测。本文第5节将对进一步提高专利质量预测模型提出具体意见。

图表编号	XD0039055800 严禁用于非法目的
绘制时间	2019.04.24
作者	刘夏、黄灿、余骁锋
绘制单位	浙江大学管理学院知识产权管理研究所、浙江大学管理学院知识产权管理研究所、香港科技大学计算机科学及工程学系
更多格式	高清、无水印（增值服务）