《表1 对于测试文本进行的相似度对比》
对于同一文本,TF-IDF只考虑了单词的词频及逆文本频率,Word2vec只考虑了单词的上下文关系,并且会将不重要的词去除掉,对一些较短句形成的向量,其并不能很好的代表文本;这两种方法形成的向量都有不足的地方,而加权Word2vec形成的向量比二者能够更好地表示一段文本。在实际应用中,可以根据具体需求来选择向量化的方法。
图表编号 | XD00173411900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.25 |
作者 | 余康龙、林庆新、王浇健、商旭豪、王涛、郑林海 |
绘制单位 | 福州大学至诚学院、福州大学至诚学院、福州大学至诚学院、福州大学至诚学院、福州大学至诚学院、福州大学至诚学院 |
更多格式 | 高清、无水印(增值服务) |