《表1 新闻文本数据分布:基于Multi-TWE模型的短文本分类研究》
该数据集中的新闻标题的长度主要集中于10~30字之间,所以该数据集中的新闻标题很适合作为短文本分类的研究对象。数据集共涉及了9个邻域,每篇文本内容都包括网址、标题、内容等,只抽取其中的新闻标题部分,最终获得的新闻文本数据分布见表1。其中,每个类别的文档按照80%作为训练数据,20%作为测试数据。
图表编号 | XD00149941900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.01 |
作者 | 王云云、张云华 |
绘制单位 | 浙江理工大学信息学院、浙江理工大学信息学院 |
更多格式 | 高清、无水印(增值服务) |