《表2 总数据集、训练集和测试集》
中文与老挝语的相似度计算研究中,起步较晚。本实验所使用的数据来自昆明理工大学信息工程与自动化学院智能信息实验室在网上收集的一些对齐的数据以及通过老挝留学生整理的数据,共有100,572对老-汉对齐语句。将这些句子进行训练集以及测试集划分,实验中所使用的训练集占90%、测试集占10%,实际数据如表2所示。其中,为了避免句中标点符号对对齐结果的影响,数据预处理时,均已去除。
图表编号 | XD00181240700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.15 |
作者 | 贾善崇、周兰江、张建安、周枫 |
绘制单位 | 昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院、昆明理工大学信息工程与自动化学院 |
更多格式 | 高清、无水印(增值服务) |