《表1 Bakeoff2005数据集》

《表1 Bakeoff2005数据集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于膨胀卷积神经网络模型的中文分词方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文实验数据采用由Bakeoff2005提供的PKU,MSR,CITYU,AS四种数据集,四种数据集的分词标准各有不同。PKU是由北京大学计算语言学研究所提供的语料库,其分词特点是姓名中姓和名要分开,组织机构等在语法词典中的直接标记,大多数短语性的词语先切分再组合。MSR是微软亚洲研究院所提供的语料库,其分词特点是由大量的命名实体构成的长单词。AS是由台湾中央研究院提供的语料库,分词规范与北大制定的分词规范类似,同时也与台湾地区的语言使用习惯相关。CITYU是由香港城市大学提供的语料库,分词规范受香港地区的使用习惯影响。数据集规模如表1所示。其中随机选取训练数据的90%作为训练集,10%作为开发集。所有的数据在输入前需要经过预处理,将英文字母替换成X,数字替换成0。