《表6 随机森林模型预测结果》

《表6 随机森林模型预测结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于机器学习模型的专利质量预测初探》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文首先将85.1250万个样本数据随机分为训练集和测试集两部分,分别占比70%以及30%。表6显示了对2010—2011年国家知识产权局受理的85万专利申请的质量预测结果。首先,表6左半部分对是否获得后续引用(FWD)进行了预测,第二部分依据后续引用数量的三个层级(FWD_Type)进行预测。整体上,决策树深度的增长虽然能够显著提升训练集内样本的拟合度,但是对于测试样本的预测,因为过度拟合而产生错误的判断,从而导致预测准确率的下降。整体上,基于本文的专利样本,10层级决策树模型是最优结果,对测试集的预测准确率为0.57,基本上能预测出全部的有后续专利引用的情况。但是,如同表6右半部分结果所显示的,模型对于FWD_Type的预测能力较弱,尤其是对于后引数量大于4的FWD_Type=2的高质量专利的预测。本文第5节将对进一步提高专利质量预测模型提出具体意见。