《表2 游客评论的分词结果》

《表2 游客评论的分词结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《大尺度旅游线路的设计质量评价体系与检验:以欧洲出境观光游为例》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:关键词排序根据Simhash值从大到小排列。

研究2从游客角度验证CEE评价准则,获取游客关心的旅游产品质量关键词。旅游电商平台上海量的游客评论是分析游客情感特征的绝佳来源[18],也为发掘旅游线路设计质量提供了真实的素材。2017年4月笔者在携程上以抽样方式选择了北京和广州两个城市作为出发地,以欧洲作为旅游目的地,抓取这些旅游线路的游客评论。理由是,北京、广州作为中国南北两个最大的一线城市,其旅游者的情感偏好具有一定的代表性。通过R提供的爬虫共抓取了2400多条线路的评论。在删除评论数少于10条的线路,以及评论字数少于20字的评论内容后,获得了23 586条评论。平均每条线路的评论数为16.5条。基于上述评论文字集,借助文本挖掘可以实现分词和关键词重要性识别。具体步骤如下:在数据清洗基础上,使用jieba R分词包进行分词和提取。通过TF-IDF算法统计关键词并计算其Simhash值及海明距离,排序后即可获得游客评论中的重要词汇。在剔除介词、副词、语气词以及其他与旅游无关的词类后,通过3人阅读和讨论,将前28个关键词(Simhash值的海明距离小于3表明文本关键词相似度较高,约占提取关键词总量的30%)投影到表2的对应范畴上,形成表2。