《表2 SentencePiece算法处理后语料》

《表2 SentencePiece算法处理后语料》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《预标准化Transformer在乌英机器翻译中的实现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先对数据集进行Sentencepiece[19]处理.Sentencepiece算法分为两步,第一步固定词表,求一个句子困惑度最低的切分序列;第二步根据这个切分序列求固定词表,剔除一个词,计算困惑度,最后对困惑度设定一个阈值,筛选一些对语料集影响较大的词,组成词汇表.Sentencepiece处理后的部分源语句和目标语句如表2所示.