《表1 数据集基本信息统计》
最终收集的数据基本信息如表1所示,我们可以看到文本平均长度为40词,文本来自搜索引擎给出的最相关片段.问题平均长度6.01词说明搜索引擎的查询一般较短.长度短的查询一般其意图表达不明确,所以有可能出现多片段答案的情况.如上边的例子所示,问题简短缺乏限定,文本中两处片段都是其答案.每个答案平均由1.76个片段组成.
图表编号 | XD00163167800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.01 |
作者 | 苏立新、郭嘉丰、范意兴、兰艳艳、徐君、程学旗 |
绘制单位 | 中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院大学、中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院大学、中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院大学、中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院网络数据科学与技术重点实验室、中国科学院计算技术研究所、中国科学院大学 |
更多格式 | 高清、无水印(增值服务) |