《表3 所构建语料库各类型实体文本描述特点统计》

《表3 所构建语料库各类型实体文本描述特点统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《公路桥梁定期检测领域命名实体识别语料库构建》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于所构建语料在不考虑嵌套性的前提下仅标注了最外层实体,而各类型实体长度对其边界和类型的识别有重要影响。如表3所示,各类型实体最大字符数均较大,这正是由于在标注过程中没有考虑嵌套性,并仅标注了最外层实体。在最高频字方面,BRI实体为“桥”,其主要原因是BRI基本上以“桥”作为其结束字。ENT、ENTE和ENTL的最高频字均为“#”,其原因是“#”在公路桥梁定期检测报告中代表“号”,而报告中描述某构件时通常包含符号“#”,例如“3#梁”“2#台帽”“4#桥台处”等。DIS和UND实体的最高频字分别为“裂”和“未”字,其原因在于观测到的结构病害中“裂缝”为最主要病害类型,还大量存在“开裂”等病害描述,而标注为UND的最高频文本为“未见明显病害”。在最小字符数方面,ENT类型出现“墩”“梁”等单字作为独立实体的情况。UND实体类型中有“未”单独标注的情况。ENTL类型具有最大的平均字符数,其长度达到了8个字符。