《表1 古籍方志物产语料处理结果样例》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的方志物产资料实体自动识别模型构建研究》
本文使用“SBEIO”标签方法对分词后的文本进行单字序列标注,S标识这个字本身为一个命名实体,B标识一个命名实体的起始字,I标识该字位于一个命名实体的中间位置,E标识一个命名实体的结尾字,非实体的部分都用O标识,部分语料处理结果如表1所示。考虑到古籍方志文本的语言特性,采用Word2Vec[22]获得词语的字符向量,并作为深度学习模型的输入特征,这样就无需基于规则和统计的方法(如获取频次、长度、边界词等外部特征)对语料进行人工设置模版,而是可以自动探索文本的潜在语义信息。为了得到更加科学合理的实验结果,本文将人工标注后的语料按照9∶1的比例以整句为单位随机拆分成训练与测试语料,对4种深度学习模型的性能进行训练和评价。
图表编号 | XD00157152100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.25 |
作者 | 徐晨飞、叶海影、包平 |
绘制单位 | 南京农业大学中华农业文明研究院、南通大学经济与管理学院、南通大学经济与管理学院、南京农业大学中华农业文明研究院 |
更多格式 | 高清、无水印(增值服务) |