《表4 Hermann等[19]文献中CNN/DM数据规模》

《表4 Hermann等[19]文献中CNN/DM数据规模》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《文本摘要常用数据集和方法研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

与Gigaword和部分DUC/TAC数据集只包含单句话的摘要不同,CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。CNN/DM最初是Hermann等[19]发布的机器阅读理解语料库。作者从美国有线新闻网(CNN)(1)和每日邮报网(Daily Mail)(2)中收集了约100万条新闻数据作为机器阅读理解语料库。在CNN和Daily Mail的新闻数据中,每篇新闻包括一条或者多条人工要点,将隐藏一个命名实体的要点作为填空题的问题,将新闻内容作为回答填空题的阅读文字。表4是语料库的详细统计信息。