《表1 标题分布的统计信息》
本文使用知乎问答社区互联网话题下的问答数据集来设计对比实验。该数据集是一种半结构化的文本数据集,过滤掉低质数据后,共包含有11786条问题数据。本文将按照8:2的比例划分训练集和测试集,每条数据包含3个字段:问题标题、问题正文和该问题已标注的标签。表1展示了实验数据集中标签的来源分布情况。
图表编号 | XD00157058500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.05 |
作者 | 田伟、龚磊 |
绘制单位 | 四川大学计算机学院、四川大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |