《表3 不同方法提取出来的特征Tab.3 Features extracted by different methods》
从表4~6可以看出,采用改进的TF-IDF提取出来的特征进行分类精确率较高,召回率较低;采用信息增益提取出来的特征进行分类精确率较低,召回率较高;而采用卡方检验提取出来的特征进行分类精确率和召回率介于二者之间。当获取的语料规模比较大时,3种特征提取的方法在不同的场景下各有优势(图3):缺陷占比较高的情况下,精确率高意味着能在保证准确率的同时识别出足够数量的包含缺陷的帖子,用改进的TF-IDF比较合适;缺陷占比较低的情况下,企业更多的是希望把相关类别的有缺陷的帖子都识别出来,召回率要求较高,用信息增益比较合适;缺陷占比适中的情况下,就需要很好的平衡精确率和召回率,选用卡方检验比较合适。
图表编号 | XD0019724500 严禁用于非法目的 |
---|---|
绘制时间 | 2018.12.01 |
作者 | 王海杰、吴琼 |
绘制单位 | 天津大学管理与经济学部、天津大学管理与经济学部 |
更多格式 | 高清、无水印(增值服务) |