《表1 文本向量化举例:游客情感计算的文本大数据挖掘方法比较研究》

《表1 文本向量化举例:游客情感计算的文本大数据挖掘方法比较研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《游客情感计算的文本大数据挖掘方法比较研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

用计算机处理文本,须将文本数据转化为计算机能理解的语言。文本向量化就是将文本表示成一系列计算机可以识别且可以表达文本语义的数值向量,有词向量和句向量2种。目前大部分对文本向量化的研究都是通过词向量实现的。词袋(bag of words)模型是最早以词为最小处理单元的文本向量化方法,产生的向量与词出现的顺序无关,与频率有关。词袋模型不包含任何语义信息,只是将词语符号化,该方法简单易行,但存在维度灾难、语义鸿沟和无法保留词序信息的问题。如“我喜欢这个地方”和“我讨厌这个地方”,两句话的特征词为“我、喜欢、讨厌、这个、地方”,文本向量如表1所示。