《表1 TTNews数据集统计信息》
TTNews数据集是目前最大的中文单文档摘要语料库,包含一个训练集和一个测试集。训练集包含50 000篇用于头条应用程序上推送和浏览的新闻文章和相应的人工摘要。此外,为了进一步促进半监督自动文摘技术的研究,它还包含50 000篇没有人工摘要的新闻文章。测试集只包含2 000篇新闻文章,其来源多种多样,内容也各不相同,包括体育、食品、娱乐、政治、科技、金融等。TTNews数据集具体统计信息如表1所示。本文仅使用包含相应人工摘要的50 000篇新闻,随机抽取其中2 000篇作为验证集,剩余48 000篇作为训练集。
图表编号 | XD0091826300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 吴仁守、张宜飞、王红玲、张迎 |
绘制单位 | 苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |