《表1 原始地址数据格式》

《表1 原始地址数据格式》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于BiLSTM-CRF的中文层级地址分词》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:数据来源于广东省广州市航天精一(广东)信息科技有限公司。

本研究数据为航天精一(广东)信息科技有限公司提供的惠州市151 000条原始文本地址,每条地址数据记录包含不同的地址层级,地址层级皆从高到低。原始中文地址文本数据中存在重复地址、层级错乱、单条地址记录不完整、地址记录错误等问题。因此,对原始数据进行数据清洗,删除重复记录,纠正层级错乱记录。记录不完整和错误记录则继续保留以增强模型的容错能力。经以上数据预处理后,剩下15万条地址文本。原始地址数据格式如表1所示。