《表1 中文文本校对选用数据的统计》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于Seq2Seq与Bi-LSTM的中文文本自动校对模型》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

实验使用阿里云服务器GN2作为训练服务器，使用TensorFlow框架，共进行了4组实验，分别用来测试Seq2Seq、BiRNNSeq2Seq、带注意力机制的Seq2Seq以及与这两者结合在一起的4种模型在中文文本校对中的性能。实验所使用的数据集来源于2018 NLPCC共享的训练数据Task 2以及一部分搜狗实验室提供的开源中文语料库，全部的数据集包含了1 327 608个句子对，分别用Src和Trg表示，Src代表原句，既可能为正确的句子也可能为包含用词错误的句子；Trg表示目标输出，其均为对应Src的正确句子，其中不包含验证集。将全部数据集按比例（99.5:0.5）随机分成两部分：一个验证集，其中包含5 310个句子对，源句与目标句子之间存在不一致；另一个训练集包含所有剩余的1 322 298个句子对。测试数据包含2 000个句子对。数据集的统计数据如表1所示。

图表编号	XD00131035700 严禁用于非法目的
绘制时间	2020.03.06
作者	龚永罡、吴萌、廉小亲、裴晨晨
绘制单位	北京工商大学计算机与信息工程学院食品安全大数据技术北京市重点实验室、北京工商大学计算机与信息工程学院食品安全大数据技术北京市重点实验室、北京工商大学计算机与信息工程学院食品安全大数据技术北京市重点实验室、北京工商大学计算机与信息工程学院食品安全大数据技术北京市重点实验室
更多格式	高清、无水印（增值服务）