《表1 部分停用词:基于词典的文本极性计算及分类研究》

《表1 部分停用词:基于词典的文本极性计算及分类研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于词典的文本极性计算及分类研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先对数据进行清洗,主要是删除没有意义的数据以及一些重复数据。删除这类数据可以使用Excel中的函数或者使用正则表达式完成。接下来对文本进行切分、分词和去停用词等操作。由于评论文本内容通常比较简短,故只进行分词和去停用词即可,分词就是把句子切分为一个个单独的词语,它是进行文本分类的基础。分词完成之后还需进行名词、形容词、副词等词性标注。在分词时需要加载用户词典,用户词典由未登录词、候选情感词以及用户自己构建的词典组成。在中文中,一篇文本的内容是通过名词、动词、形容词、代词、介词和连词等词汇构成,其中,名词等实词对文本情感极性计算有极大的帮助作用;而介词、连词、冠词等虚词以及一些常用词汇则不能提供太多的帮助,将这些对文本情感极性计算帮助不大的词称作停用词。在进行文本处理时往往都需要去停用词,比如英文中的“the、of、and、to、for”等,汉语中如“的,地,这个,那个”等助词。在本文中针对研究内容共收集停用词1208个,部分如表1所示。分词和去停用词可以使用jieba完成。至此,实现文本的预处理操作,粗略筛选出有用词条。