《表3 不同方法提取出来的特征Tab.3 Features extracted by different methods》

《表3 不同方法提取出来的特征Tab.3 Features extracted by different methods》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于社交媒体的汽车缺陷识别方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表4~6可以看出,采用改进的TF-IDF提取出来的特征进行分类精确率较高,召回率较低;采用信息增益提取出来的特征进行分类精确率较低,召回率较高;而采用卡方检验提取出来的特征进行分类精确率和召回率介于二者之间。当获取的语料规模比较大时,3种特征提取的方法在不同的场景下各有优势(图3):缺陷占比较高的情况下,精确率高意味着能在保证准确率的同时识别出足够数量的包含缺陷的帖子,用改进的TF-IDF比较合适;缺陷占比较低的情况下,企业更多的是希望把相关类别的有缺陷的帖子都识别出来,召回率要求较高,用信息增益比较合适;缺陷占比适中的情况下,就需要很好的平衡精确率和召回率,选用卡方检验比较合适。