《表3 词频统计结果(前10)》

《表3 词频统计结果(前10)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于R语言的商品评论情感可视化分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文采用的文本分词方法是基于R软件,调用jiebaR安装包来实现。jiebaR包拥有自己的系统词典,且词汇量相当丰富,在此次文本分析中够用。在对文本分词之后,全文共分成了36905个词语,但其实这些词中包括了语气助词、副词、介词、连接词等,这些词语没有太大的分析意义,但出现的频率却很高,比如“得、呢、了、还、于是、那么”等。为了避免后期统计词频时增加许多的噪音,所以一般都会将这些词进行过滤处理。本文采用的是哈工大停用词,在筛出了停用词后剩余27277个词。经过分词和去停用词处理后,提取词频如表3所示。