《表1 数据集中正例和反例分布情况》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于多示例学习框架的文本分类算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

为了检验MIL-SVM算法在文本分类领域的有效性，本文采用来自Python程序爬取的语料库进行实验分析。数据来源于新浪、微博、知乎等知名中文网站的新闻以及评论数据，经过数据预处理，删去不满足要求的文本之后，最终数据集包括8个分类，每个分类6000条数据，训练集30 000条，测试集18 000条。类别如下：时政、体育、房产、财经、旅游、教育、科技、健康，并对数据集标记为（U1-U8）。随机对8个分类中的数据进行标记，每个数据集中的正示例与反示例分布情况见表1。

图表编号	XD00137229200 严禁用于非法目的
绘制时间	2020.04.16
作者	徐建国、肖海峰、赵华
绘制单位	山东科技大学计算机科学与工程学院、山东科技大学计算机科学与工程学院、山东科技大学计算机科学与工程学院
更多格式	高清、无水印（增值服务）