《表2 基于有监督词对匹配训练集》
本文主要使用的词汇资源是Word Net,Word Net是一个英文单词数据库,每个同义词集合对应一个基本的语义概念,并通过同义词集之间的语义关系链接在一起,于1985年由普林斯顿大学创建,本文使用的是2012年Word Net 3.1版本,包含九类词汇结构:上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关系(名词)、物质部分关系(名词)、部件部分关系(名词)、致使关系(动词)、相关动词关系(动词)、属性关系(形容词)。该资源包含155 327个词,175 979个同义词集,构建得到207 016个词集对。为了便于构建词对关系识别模型训练集,从Word Net中抽取的词汇关系数量如表2所示。其中,同位词是为了文本蕴含任务设计的一种词汇关系,将具有相同上位词构成的词对称为同位词(co_hyponyms),以表示一种互斥的关系,这在“对立”推理中有重要应用。
图表编号 | XD00197437500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.15 |
作者 | 郑德权、于凤、王贺伟 |
绘制单位 | 哈尔滨商业大学计算机与信息工程学院、哈尔滨商业大学计算机与信息工程学院、哈尔滨工业大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |