《表1 实验数据集特征统计信息》
沿用传统的基于翻译的模型中采用的数据集FB15K、WN11和FB13,同时在三元组分类任务中增加FB15K-237[16]、WN18和WN18RR[17],如表1所示。其中FB15K数据集中实体的一对多关系和该实体的多对一关系呈幂律分布,呈现出严重的数据稀疏性。训练过程中或出现只有少数高频实体起了关键作用,其他实体作用较小的现象。FB15K-237是FB15K的子集,相对FB15K移除了多余的关系,大大减少了关系的数量。同样地,WN18RR也是WN18的子集,相对WN18,它消除了反向关系,同时很大程度上增加了推理的难度。
图表编号 | XD00198101100 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.05 |
作者 | 孟小艳、蒋同海、周喜、韩云飞、马博 |
绘制单位 | 中国科学院新疆理化技术研究所、中国科学院大学、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、新疆农业大学计算机与信息工程学院、中国科学院新疆理化技术研究所、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室、中国科学院新疆理化技术研究所、中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 |
更多格式 | 高清、无水印(增值服务) |