《表1 训练数据上的统计信息》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于序列到序列模型的文本到信息框生成的研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

Wiki Bio[11]是来自于Wikipedia的一组包含“人物传记-信息框”对的数据集。人物传记是对应的Wikipedia文章的第一段，同时该段落往往包含了多个句子。WikiBio包含了728 321个实例，且被划分为3个部分，包括582 659条训练数据、72 831条开发数据、以及72 831条测试数据。在本文中，研究使用该数据集来基于人物传记生成信息框。在本文的设定中，如果一个“属性-值”对的“值”中没有一个词出现在输入文本中，那么研究将会过滤掉这个“属性-值”对。如果一个“值”中包含超过5个词，那么相应的“属性-值”对也会被移除。最终，本文获得了Wiki Bio的一个子集，集合中包含了580 069个实例作为训练数据，72 502个实例作为开发集数据，72 517个实例作为测试数据。在此基础上，研究得出的过滤后的训练数据的统计信息见表1。

图表编号	XD0050504800 严禁用于非法目的
绘制时间	2019.05.01
作者	鲍军威、周明、赵铁军
绘制单位	哈尔滨工业大学计算机科学与技术学院、微软亚洲研究院、哈尔滨工业大学计算机科学与技术学院
更多格式	高清、无水印（增值服务）