《表1 数据集中正例和反例分布情况》
为了检验MIL-SVM算法在文本分类领域的有效性,本文采用来自Python程序爬取的语料库进行实验分析。数据来源于新浪、微博、知乎等知名中文网站的新闻以及评论数据,经过数据预处理,删去不满足要求的文本之后,最终数据集包括8个分类,每个分类6000条数据,训练集30 000条,测试集18 000条。类别如下:时政、体育、房产、财经、旅游、教育、科技、健康,并对数据集标记为(U1-U8)。随机对8个分类中的数据进行标记,每个数据集中的正示例与反示例分布情况见表1。
图表编号 | XD00137229200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.16 |
作者 | 徐建国、肖海峰、赵华 |
绘制单位 | 山东科技大学计算机科学与工程学院、山东科技大学计算机科学与工程学院、山东科技大学计算机科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |