《表1 子语义空间部分词汇》

《表1 子语义空间部分词汇》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于子语义空间的挖掘短文本策略方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

利用Word2Vec思想将步骤1提取出的关键词转化为词向量并构建语义空间,此时如果直接针对整个语义空间挖掘关联规则,不仅数据量大,而且空间内所有词向量并非都存在关联关系,容易造成挖掘速度慢或者内存溢出等问题。所以采取切割语义空间的思想,对大数据“分而治之”,本文利用聚类算法划分语义空间,将语义上相近的词向量聚类形成子语义空间,将子语义空间内相似度不小于阈值θ(θ=0.98)的词汇生成“或”关系(如A1|A2|A3…|An),即自动生成近义词词典。子语义空间部分词汇见表1。