《表1 有效上下文词项与其他词项的对比》
利用点互信息可以很好地判断词语与其上下文词项的语义联系。举个例子,有“韦德”“闪电侠”和“贝克汉姆”三个词项,其中,“韦德(韦德,美国篮球运动员)”是变体词“闪电侠”的目标词,而“贝克汉姆(贝克汉姆,英国足球运动员)”与“闪电侠”无关,不是它的目标词。本文挑选出三个它们的上下文词项:“波什”“詹姆斯”“体育”进行比较。其中“波什”“詹姆斯”均与“闪电侠”“韦德”有较强语义联系,与“贝克汉姆”语义联系较低。表1展示了不同的上下文词项的PMI值,可以看出,“波什”“詹姆斯”与“闪电侠”“韦德”的点互信息都比较高,与“贝克汉姆”的点互信息较低。点互信息可以很好地表示词项之间的语义联系。此外可以发现“波什”“詹姆斯”与“闪电侠”韦德”的点互信息较高,与“贝克汉姆”的点互信息较低,有较强的区分性;而词项“体育”与这三个词的点互信息相差不大,区分性较低。因此本文可以看出通过点互信息筛选出的有效上下文词项相对于其他的词项,能够更好地区分出意义不同的词语,找到意义相同的词语。这个性质能够很好地帮助本文找到变体词真正的目标词。
图表编号 | XD0090289900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.01 |
作者 | 游绩榕、沙灜、梁棋、王斌 |
绘制单位 | 中国科学院信息工程研究所第二研究室、中国科学院大学网络空间安全学院、中国科学院信息工程研究所第二研究室、中国科学院大学网络空间安全学院、中国科学院信息工程研究所第二研究室、中国科学院大学网络空间安全学院、中国科学院信息工程研究所第二研究室、中国科学院大学网络空间安全学院 |
更多格式 | 高清、无水印(增值服务) |