《表1 子语义空间部分词汇》
利用Word2Vec思想将步骤1提取出的关键词转化为词向量并构建语义空间,此时如果直接针对整个语义空间挖掘关联规则,不仅数据量大,而且空间内所有词向量并非都存在关联关系,容易造成挖掘速度慢或者内存溢出等问题。所以采取切割语义空间的思想,对大数据“分而治之”,本文利用聚类算法划分语义空间,将语义上相近的词向量聚类形成子语义空间,将子语义空间内相似度不小于阈值θ(θ=0.98)的词汇生成“或”关系(如A1|A2|A3…|An),即自动生成近义词词典。子语义空间部分词汇见表1。
图表编号 | XD00130915300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.20 |
作者 | 孙洋、粟栗、张星、王峰生、杜海涛 |
绘制单位 | 中国移动通信有限公司研究院、中国移动通信有限公司研究院、中国移动通信有限公司研究院、中国移动通信有限公司研究院、中国移动通信有限公司研究院 |
更多格式 | 高清、无水印(增值服务) |