《表1 数据集中正例和反例分布情况》

《表1 数据集中正例和反例分布情况》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多示例学习框架的文本分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了检验MIL-SVM算法在文本分类领域的有效性,本文采用来自Python程序爬取的语料库进行实验分析。数据来源于新浪、微博、知乎等知名中文网站的新闻以及评论数据,经过数据预处理,删去不满足要求的文本之后,最终数据集包括8个分类,每个分类6000条数据,训练集30 000条,测试集18 000条。类别如下:时政、体育、房产、财经、旅游、教育、科技、健康,并对数据集标记为(U1-U8)。随机对8个分类中的数据进行标记,每个数据集中的正示例与反示例分布情况见表1。