《表1 三个被不同标记但有相同前提句(premise)的例子》
识别文本蕴涵是机器理解自然语言的关键工作,核心是对自然逻辑(natural logics)[18]的理解。根据MacCartney和Milne等人[19,20]的描述,一般认为存在着16种基本的语义逻辑关系,其中有9种是退化的,即它们的表达相对空洞,在实践中很难见到;剩下的7种逻辑关系被统一划分为蕴涵(entailment)、矛盾(contradiction)和中立(neutral)三大类。表1列出的三个例子中,它们拥有相同的P句:families waiting in line at an amusement park for their turn to ride the carousel(好多家庭在游乐场里排队坐旋转木马),根据H句的表述不同,被分别标记了不同的标签。第一个例子中,H句中的people和P句中的families有明显的等价关系,at an amusement park又可以找到完全对应的词句,因此两句被判定为存在蕴涵关系;第二个例子中,H句中的see a movie和P句中ride the carousel两个动作存在不对称性,因此被判定为矛盾;第三个例子中,H句中对餐厅的评价与P句没有任何逻辑上的关联性,因此无法给出明确的判定标签。这里的三个例子相对简单,机器要作出正确的判断也相对容易,但当某个句子存在过多冗余信息或者线索分布在多个不同位置需要整体把握时,机器就很难进行正确的推理了。
图表编号 | XD0090320800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 霍欢、刘亮 |
绘制单位 | 上海理工大学光电信息与计算机工程学院、复旦大学上海市数据科学重点实验室、上海理工大学光电信息与计算机工程学院 |
更多格式 | 高清、无水印(增值服务) |