《表1 文本向量化举例:游客情感计算的文本大数据挖掘方法比较研究》
用计算机处理文本,须将文本数据转化为计算机能理解的语言。文本向量化就是将文本表示成一系列计算机可以识别且可以表达文本语义的数值向量,有词向量和句向量2种。目前大部分对文本向量化的研究都是通过词向量实现的。词袋(bag of words)模型是最早以词为最小处理单元的文本向量化方法,产生的向量与词出现的顺序无关,与频率有关。词袋模型不包含任何语义信息,只是将词语符号化,该方法简单易行,但存在维度灾难、语义鸿沟和无法保留词序信息的问题。如“我喜欢这个地方”和“我讨厌这个地方”,两句话的特征词为“我、喜欢、讨厌、这个、地方”,文本向量如表1所示。
图表编号 | XD00161777600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.01 |
作者 | 李君轶、任涛、陆路正 |
绘制单位 | 陕西师范大学地理科学与旅游学院、陕西省旅游信息科学重点实验室、陕西师范大学地理科学与旅游学院、陕西省旅游信息科学重点实验室、陕西师范大学地理科学与旅游学院、陕西省旅游信息科学重点实验室 |
更多格式 | 高清、无水印(增值服务) |