《表1 旅游文本标注样例:基于卷积神经网络的中文景点识别研究》

《表1 旅游文本标注样例:基于卷积神经网络的中文景点识别研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于卷积神经网络的中文景点识别研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于目前还没有公认度较高的旅游领域文本预料,本文从旅游相关网站上爬取了8 900余篇北京旅行游记文本作为初始未标注数据,经过去除空白行、空格、非文本相关内容等预处理操作,得到旅游领域文本34万余条句子。同时通过高德地图旅游景点数据和旅游网站检索构造了北京旅游景点词典,经过去重和人工审核后,得到有效景点词8 000余个。本文通过词典对旅游文本进行自动化标注,标注样例如表1所示,并构建模型训练集和测试集,具体数据情况如表2所示。