《表1 多义词词向量训练语料(以多义词line为例)》
仿照Le等的做法[18],本文也将文档看作是一个“特殊词汇”。因为文档能够表达多方面的语义,所以这个“特殊词汇”也是一个多义词。多义词的每个语义可被看作是一个特殊的“语义词汇”,那么一个多义词则是由它所包含的所有“语义词汇”构成的词袋。为了探索多义词的词向量表示,本文采用多义词语料库SENSEVAL(1)进行多义词词向量表示实验。SENSEVAL是由计算语言学协会(Association of Computational Linguistics,ACL)构建的一个多义词语义消歧语料库。在该语料库中,针对每个多义词的不同语义,均提供一个示例句展示该语义的用法。以多义词line为例,其有6个语义:cord(绳子)、division(分隔)、formation(编队)、phone(电话)、product(产品)和text(文本)。将上述每个语义看作是一个特殊“语义词汇”,分别命名为line_cord、line_division、line_formation、line_phone、line_product和line_text,然后将示例句中的多义词替换为相应的“语义词汇”,则构成包含原始示例句和替换后示例句的训练语料,如表1所示。基于该语料,利用谷歌开发的词向量训练算法Word2Vec(2)训练出语料中每个多义词及其每个“语义词汇”的词向量表示。
图表编号 | XD00212862800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.25 |
作者 | 金贤日、欧石燕 |
绘制单位 | 南京大学信息管理学院、南京大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |