《表1 20Newsgroups数据集》
20 Newsgroups数据集是一种文本数据集,共大约收录了2万篇新闻文档,大约包含20个种类,即每一篇文章属于其中一个种类。选取了comp、rec、sci、talk四个父类下的子类构造多个源领域以及目标领域。具体构造形式见表1,每一个实验组包含两个源领域,一个目标领域,每个源领域包含大约2 000个样本,在目标领域中随机均匀选择200个样本,其中均匀选取20%的数据作为带标签训练集,剩下的80%作为无标签的测试集。
图表编号 | XD0069488000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.28 |
作者 | 张文田、凌卫新 |
绘制单位 | 华南理工大学数学学院、华南理工大学数学学院 |
更多格式 | 高清、无水印(增值服务) |