《表1 不同筛选方法保留的百科数据规模统计(句子数)》
我们认为,对模型有益的分词信息集中在弱标注数据的片段上,所以我们统计弱标注片段整体出现在测试领域dev数据集上出现的频率,并定义一句话的领域相关性为这句话中所有弱标注片段的出现频率之和。最后,我们仅保留出现频率大于0的百科句子。最终保留的百科数据统计如表1所示。
图表编号 | XD0091813700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 朱运、李正华、黄德朋、张民 |
绘制单位 | 苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院、苏州大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |