《表2 游客评论的分词结果》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《大尺度旅游线路的设计质量评价体系与检验:以欧洲出境观光游为例》
注:关键词排序根据Simhash值从大到小排列。
研究2从游客角度验证CEE评价准则,获取游客关心的旅游产品质量关键词。旅游电商平台上海量的游客评论是分析游客情感特征的绝佳来源[18],也为发掘旅游线路设计质量提供了真实的素材。2017年4月笔者在携程上以抽样方式选择了北京和广州两个城市作为出发地,以欧洲作为旅游目的地,抓取这些旅游线路的游客评论。理由是,北京、广州作为中国南北两个最大的一线城市,其旅游者的情感偏好具有一定的代表性。通过R提供的爬虫共抓取了2400多条线路的评论。在删除评论数少于10条的线路,以及评论字数少于20字的评论内容后,获得了23 586条评论。平均每条线路的评论数为16.5条。基于上述评论文字集,借助文本挖掘可以实现分词和关键词重要性识别。具体步骤如下:在数据清洗基础上,使用jieba R分词包进行分词和提取。通过TF-IDF算法统计关键词并计算其Simhash值及海明距离,排序后即可获得游客评论中的重要词汇。在剔除介词、副词、语气词以及其他与旅游无关的词类后,通过3人阅读和讨论,将前28个关键词(Simhash值的海明距离小于3表明文本关键词相似度较高,约占提取关键词总量的30%)投影到表2的对应范畴上,形成表2。
图表编号 | XD0037716200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.06 |
作者 | 朱镇、黄秋云 |
绘制单位 | 中国地质大学(武汉)经济管理学院、中国地质大学(武汉)经济管理学院 |
更多格式 | 高清、无水印(增值服务) |