《表2 总数据集、训练集和测试集》

《表2 总数据集、训练集和测试集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《融入多特征的汉-老双语对齐方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

中文与老挝语的相似度计算研究中,起步较晚。本实验所使用的数据来自昆明理工大学信息工程与自动化学院智能信息实验室在网上收集的一些对齐的数据以及通过老挝留学生整理的数据,共有100,572对老-汉对齐语句。将这些句子进行训练集以及测试集划分,实验中所使用的训练集占90%、测试集占10%,实际数据如表2所示。其中,为了避免句中标点符号对对齐结果的影响,数据预处理时,均已去除。