《表1 训练数据上的统计信息》

《表1 训练数据上的统计信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于序列到序列模型的文本到信息框生成的研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Wiki Bio[11]是来自于Wikipedia的一组包含“人物传记-信息框”对的数据集。人物传记是对应的Wikipedia文章的第一段,同时该段落往往包含了多个句子。WikiBio包含了728 321个实例,且被划分为3个部分,包括582 659条训练数据、72 831条开发数据、以及72 831条测试数据。在本文中,研究使用该数据集来基于人物传记生成信息框。在本文的设定中,如果一个“属性-值”对的“值”中没有一个词出现在输入文本中,那么研究将会过滤掉这个“属性-值”对。如果一个“值”中包含超过5个词,那么相应的“属性-值”对也会被移除。最终,本文获得了Wiki Bio的一个子集,集合中包含了580 069个实例作为训练数据,72 502个实例作为开发集数据,72 517个实例作为测试数据。在此基础上,研究得出的过滤后的训练数据的统计信息见表1。