《表1 古籍方志物产语料处理结果样例》

《表1 古籍方志物产语料处理结果样例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的方志物产资料实体自动识别模型构建研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用“SBEIO”标签方法对分词后的文本进行单字序列标注,S标识这个字本身为一个命名实体,B标识一个命名实体的起始字,I标识该字位于一个命名实体的中间位置,E标识一个命名实体的结尾字,非实体的部分都用O标识,部分语料处理结果如表1所示。考虑到古籍方志文本的语言特性,采用Word2Vec[22]获得词语的字符向量,并作为深度学习模型的输入特征,这样就无需基于规则和统计的方法(如获取频次、长度、边界词等外部特征)对语料进行人工设置模版,而是可以自动探索文本的潜在语义信息。为了得到更加科学合理的实验结果,本文将人工标注后的语料按照9∶1的比例以整句为单位随机拆分成训练与测试语料,对4种深度学习模型的性能进行训练和评价。