《表1 TTNews数据集统计信息》

《表1 TTNews数据集统计信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于层次结构的生成式自动文摘》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

TTNews数据集是目前最大的中文单文档摘要语料库,包含一个训练集和一个测试集。训练集包含50 000篇用于头条应用程序上推送和浏览的新闻文章和相应的人工摘要。此外,为了进一步促进半监督自动文摘技术的研究,它还包含50 000篇没有人工摘要的新闻文章。测试集只包含2 000篇新闻文章,其来源多种多样,内容也各不相同,包括体育、食品、娱乐、政治、科技、金融等。TTNews数据集具体统计信息如表1所示。本文仅使用包含相应人工摘要的50 000篇新闻,随机抽取其中2 000篇作为验证集,剩余48 000篇作为训练集。