《表2 SentencePiece算法处理后语料》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《预标准化Transformer在乌英机器翻译中的实现》
首先对数据集进行Sentencepiece[19]处理.Sentencepiece算法分为两步,第一步固定词表,求一个句子困惑度最低的切分序列;第二步根据这个切分序列求固定词表,剔除一个词,计算困惑度,最后对困惑度设定一个阈值,筛选一些对语料集影响较大的词,组成词汇表.Sentencepiece处理后的部分源语句和目标语句如表2所示.
图表编号 | XD00199019100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.01 |
作者 | 高巍、陈子祥、李大舟、李耀松 |
绘制单位 | 沈阳化工大学计算机科学与技术学院、沈阳化工大学计算机科学与技术学院、沈阳化工大学计算机科学与技术学院、沈阳化工大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |