《表1 7种算法对军事命名实体识别结果》
试验选取对比算法有传统CRF[1?2,5]、以字为输入的Bi?LSTM?CRF[8]、以字为输入的Bi?LSTM?CNN?CRF[10],以字为输入的Bi?LSTM[7]、BERT?DNN?CRF以及DILATION?CRF 7种算法。表1给出了7种算法在军事语料测试集上的军事命名实体识别的准确率、召回率和F1值,均为总体加权平均值。表1可见,BERT?Bi?LSTM?CRF算法表现最优,平均F1值为0.985,这是因为该算法充分考虑了字、语义块、字的位置及其词性标注的共同影响,虽然样本量不足,但是基于BERT的迁移学习,在某种程度上能提升模型的领域迁移能力和泛化能力。同时,该算法的Bi?LSTM?CRF层能够反映军事领域文本的上下文信息。本文综合上述设计提出的BERT?Bi?LSTM?CRF算法具有较高的准确率和泛化能力。CRF命名实体识别主要针对通用领域并通过人工构建特征,因此其在军事领域命名实体识别上表现较差,基本无法识别出部队装备和物资弹药类的目标类型。Bi?LSTM算法仅考虑字级别的输入特征,虽然能反映语料的上下文信息,但在预测每个字类别时,仅考虑当前位置字的输出信息,未考虑上下文字的预测类别信息,因此效果略差。Bi?LSTM?CRF算法考虑了预测类别的序列信息,但在输入层仅考虑了字级别的输入特征,因此表现稍逊BERT?Bi?LSTM?CRF算法。Bi?LSTM?CNN?CRF算法虽然通过CNN对输入的字序列进行重新编码,获得词语块特征,但其改善效果仍不及加入词性特征。BERT?DNN?CRF算法虽然能考虑通用领域特征,但在解码阶段考虑序列上下文信息不足,因此准确率略差于BERT?Bi?LSTM?CRF算法。
图表编号 | XD00179998900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.28 |
作者 | 刘卫平、张豹、陈伟荣、张诚、陈渊、潘仁前 |
绘制单位 | 中国电子科技集团公司第二十八研究所、中国电子科技集团公司第二十八研究所、中国电子科技集团公司第二十八研究所、中国电子科技集团公司第二十八研究所、中国电子科技集团公司第二十八研究所、中国电子科技集团公司第二十八研究所 |
更多格式 | 高清、无水印(增值服务) |