《表1 对于测试文本进行的相似度对比》

《表1 对于测试文本进行的相似度对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于机器学习的商业广告数据清洗技术》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

对于同一文本,TF-IDF只考虑了单词的词频及逆文本频率,Word2vec只考虑了单词的上下文关系,并且会将不重要的词去除掉,对一些较短句形成的向量,其并不能很好的代表文本;这两种方法形成的向量都有不足的地方,而加权Word2vec形成的向量比二者能够更好地表示一段文本。在实际应用中,可以根据具体需求来选择向量化的方法。