《表1:数据集描述:基于电商产品评论数据的情感分析》

《表1:数据集描述:基于电商产品评论数据的情感分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于电商产品评论数据的情感分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

此步骤的目的主要是为了去除商品评论数据中的重复部分,这样可以起到去除无用评论和重复评论的目的。一般的文本去重算法的主要思想是利用算法分析文本之间的相似程度,然后根据相似程度的深浅进行文本去重。这类算法包括Simhash算法、距离去重等。其中距离去重算法是通过计算两条不同语句间的编辑距离,然后分别对其计算得到的距离阈值进行判断,如果计算得到的编辑距离与阈值之差为负数,那么将进行去重处理。但是当遇到所要表达意思相近的语句时,该语句也可能因为去重算法而被删点,这样就会导致错删的情况出现。为了避免错删,这里我们采用较为简单的去重思路,那就是只对完全重复的语句进行去重。