《表1 旅游文本标注样例:基于卷积神经网络的中文景点识别研究》
由于目前还没有公认度较高的旅游领域文本预料,本文从旅游相关网站上爬取了8 900余篇北京旅行游记文本作为初始未标注数据,经过去除空白行、空格、非文本相关内容等预处理操作,得到旅游领域文本34万余条句子。同时通过高德地图旅游景点数据和旅游网站检索构造了北京旅游景点词典,经过去重和人工审核后,得到有效景点词8 000余个。本文通过词典对旅游文本进行自动化标注,标注样例如表1所示,并构建模型训练集和测试集,具体数据情况如表2所示。
图表编号 | XD00119706800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.15 |
作者 | 刘小安、彭涛 |
绘制单位 | 北京联合大学智慧城市学院、北京联合大学机器人学院 |
更多格式 | 高清、无水印(增值服务) |