《表1 不同筛选方法保留的百科数据规模统计(句子数)》

《表1 不同筛选方法保留的百科数据规模统计(句子数)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于弱标注数据的汉语分词领域移植》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

我们认为,对模型有益的分词信息集中在弱标注数据的片段上,所以我们统计弱标注片段整体出现在测试领域dev数据集上出现的频率,并定义一句话的领域相关性为这句话中所有弱标注片段的出现频率之和。最后,我们仅保留出现频率大于0的百科句子。最终保留的百科数据统计如表1所示。