《表2 朴素Bayes文本分类器的分类结果》
在使用TFIDF算法时,适当地选择特征项词性可在很大程度上降低文本分类的时间成本,并提高分类准确率.本文考察了特征项既有名词和又有动词、仅为名词、仅为动词这3种情况对分类的影响,结果列于表2.由表2可见:当未知文本特征项词性为动词和名词时,朴素Bayes文本分类器的文本正确分类数量最多,为53个;仅为名词时次之,为49个;仅为动词时最差,为34个.这主要是因为新闻类文本的特征项大多数为名词,去掉动词特征项对特征向量影响较小,所以当特征项仅为名词时,正确分类数量下降不明显;但若去掉名词特征项将对特征向量产生巨大影响,进而使分类错误概率极大增加.
图表编号 | XD00106874300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.26 |
作者 | 方秋莲、王培锦、隋阳、郑涵颖、吕春玥、王艳彤 |
绘制单位 | 中南大学数学与统计学院、中南大学数学与统计学院、中南大学数学与统计学院、中南大学数学与统计学院、中南大学数学与统计学院、中南大学数学与统计学院 |
更多格式 | 高清、无水印(增值服务) |