《表7 各级地址模型性能》

《表7 各级地址模型性能》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于BiLSTM-CRF的中文层级地址分词》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

基于上述模型参数训练的4个中文地址分词模型在测试数据集上测试得到模型整体分词性能(表6)和各模型在各层级地址的分词性能(表7)。从表6可知,除LSTM模型3个指标和CRF模型召回率低于90%外,其余模型的相关指标均高于90%。LSTM、CRF、BiLSTM和BiLSTM-CRF这4个模型的指标值均依次递增。其中,BiLSTM-CRF模型的3个指标均最高,达到93%,模型整体分词性能最好,其次为BiLSTM模型,精确率高于91%,另外两个指标值也接近91%。LSTM模型的分词性能相对CRF模型和其他模型较差,3个指标值均低于90%。CRF模型召回率接近90%,精确率和F1值高于90%,一定程度上优于LSTM模型。另外,4个模型的召回率相对于精确率较低,原因可能是模型在训练数据上的效果比测试数据要好,模型存在轻微的过拟合,可以增加训练数据量或者修改Dropout率改善模型测试效果,提高召回率。LSTM模型的综合性能低于其他模型可能跟LSTM模型本身只能记忆过去信息,无法获取未来信息的特点有关,并且LSTM模型无法考虑输出标注间的关系,这种缺点可能导致模型输出存在标注不连续的错误。CRF模型的整体性能高于LSTM可能因为其能够设定大量的特征,在充分拟合数据分布的情况下仍能考虑模型输出标注间的限制。而BiLSTM为双向记忆,尽管没有限制输出标注间关系的能力,但通过记忆过去和未来地址信息的能力可以达到优于CRF模型的效果。最后,BiLSTM-CRF模型综合了上述模型的优点,既有强大的长期记忆能力,也能考虑输出标注间转移特征,因此各项指标均优于其他模型,具备更佳的地址分词效果。