《表2 测试邮件种类数量选取表》
实验所用到的数据集来源于GitHub网站,使用2 000封邮件作为训练集提出特征词组成词典,用未经改进的TF-IDF类中心向量算法与改进的算法做对比,如表2所示,依次用100封、500封、1 000封、2 000封邮件做测试,仿真TF-IDF算法邮件分类的准确性。从图3的仿真结果可知,传统的算法平均准确率为82.55%,改进后的算法为准确率86.18%。因此,在其他条件相同时,本文改进的TF-IDF算法准确率更高,能够更好地应用于垃圾邮件分类上。
图表编号 | XD00174662000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.15 |
作者 | 吴小晴、万国金、李程文、林梦思、曹书强 |
绘制单位 | 南昌大学信息工程学院、南昌大学信息工程学院、南昌大学信息工程学院、南昌大学信息工程学院、南昌大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |