《表1 训练数据上的统计信息》
Wiki Bio[11]是来自于Wikipedia的一组包含“人物传记-信息框”对的数据集。人物传记是对应的Wikipedia文章的第一段,同时该段落往往包含了多个句子。WikiBio包含了728 321个实例,且被划分为3个部分,包括582 659条训练数据、72 831条开发数据、以及72 831条测试数据。在本文中,研究使用该数据集来基于人物传记生成信息框。在本文的设定中,如果一个“属性-值”对的“值”中没有一个词出现在输入文本中,那么研究将会过滤掉这个“属性-值”对。如果一个“值”中包含超过5个词,那么相应的“属性-值”对也会被移除。最终,本文获得了Wiki Bio的一个子集,集合中包含了580 069个实例作为训练数据,72 502个实例作为开发集数据,72 517个实例作为测试数据。在此基础上,研究得出的过滤后的训练数据的统计信息见表1。
图表编号 | XD0050504800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.01 |
作者 | 鲍军威、周明、赵铁军 |
绘制单位 | 哈尔滨工业大学计算机科学与技术学院、微软亚洲研究院、哈尔滨工业大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |