《表1 多义词词向量训练语料(以多义词line为例)》

《表1 多义词词向量训练语料(以多义词line为例)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《无监督引用文本自动识别与分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

仿照Le等的做法[18],本文也将文档看作是一个“特殊词汇”。因为文档能够表达多方面的语义,所以这个“特殊词汇”也是一个多义词。多义词的每个语义可被看作是一个特殊的“语义词汇”,那么一个多义词则是由它所包含的所有“语义词汇”构成的词袋。为了探索多义词的词向量表示,本文采用多义词语料库SENSEVAL(1)进行多义词词向量表示实验。SENSEVAL是由计算语言学协会(Association of Computational Linguistics,ACL)构建的一个多义词语义消歧语料库。在该语料库中,针对每个多义词的不同语义,均提供一个示例句展示该语义的用法。以多义词line为例,其有6个语义:cord(绳子)、division(分隔)、formation(编队)、phone(电话)、product(产品)和text(文本)。将上述每个语义看作是一个特殊“语义词汇”,分别命名为line_cord、line_division、line_formation、line_phone、line_product和line_text,然后将示例句中的多义词替换为相应的“语义词汇”,则构成包含原始示例句和替换后示例句的训练语料,如表1所示。基于该语料,利用谷歌开发的词向量训练算法Word2Vec(2)训练出语料中每个多义词及其每个“语义词汇”的词向量表示。