《表1 数据集的统计:基于Transformer模型的中文文本自动校对研究》

《表1 数据集的统计:基于Transformer模型的中文文本自动校对研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Transformer模型的中文文本自动校对研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

针对上述模型,本文设计了以下的实验。本实验运行环境操作系统为Windows 10,CPU为Intel誖Core TM i5-8265,GPU为GTX 1070Ti,运行内存8 GB。一共进行4组实验,分别为传统的Seq2Seq、加入BiLSTM的Seq2Seq、基于注意力机制的BiLSTM Seq2Seq与Transformer共4种模型。实验使用的数据集来自于2018 NLPCC共享的训练数据集Task 2,其中提供了717 206条中文文本语句对,将其中的700 000条作训练集,17 206条作测试集,划分过程随机。Src代表待校对语料,Trg表示原句所对应的正确语料。数据集的统计数据如表1所示,分为训练集和测试集,统计了正确语料和错误语料,以及分词后的词语总数。