《表1 中文文本校对选用数据的统计》

《表1 中文文本校对选用数据的统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Seq2Seq与Bi-LSTM的中文文本自动校对模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验使用阿里云服务器GN2作为训练服务器,使用TensorFlow框架,共进行了4组实验,分别用来测试Seq2Seq、BiRNNSeq2Seq、带注意力机制的Seq2Seq以及与这两者结合在一起的4种模型在中文文本校对中的性能。实验所使用的数据集来源于2018 NLPCC共享的训练数据Task 2以及一部分搜狗实验室提供的开源中文语料库,全部的数据集包含了1 327 608个句子对,分别用Src和Trg表示,Src代表原句,既可能为正确的句子也可能为包含用词错误的句子;Trg表示目标输出,其均为对应Src的正确句子,其中不包含验证集。将全部数据集按比例(99.5:0.5)随机分成两部分:一个验证集,其中包含5 310个句子对,源句与目标句子之间存在不一致;另一个训练集包含所有剩余的1 322 298个句子对。测试数据包含2 000个句子对。数据集的统计数据如表1所示。