《表5 词嵌入向量语义相似度》

《表5 词嵌入向量语义相似度》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《维-哈-柯多语言词素切分集成环境研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了引入词嵌入向量,对较大的文本语料库进行词素切分,然后对每个词素计算stem2vector向量值。其中,维吾尔语文本是500 000个句子,哈萨克语200 000个句子。选择上下文10个单元(词素),在维吾尔语和哈萨克语中将所有词素单元映射到8维实数向量空间,并用余弦距离测量每个单元的相似度。表5给出了几个词干的相似度,其中分别为对维吾尔语词m Akt Ap(学校)和哈萨克语词xenjya N(新疆)一些相似词的余弦距离。