《表1:图纸复核结果统计表》
注:A.模糊匹配实际名称未成功的文档册;B.名称重复匹配的文档册。a.模糊匹配实际名称未成功文档册的内含图纸;b.名称重复匹配文档册的内含图纸;c.匹配实际名称未成功的图纸;d.名称重复匹配的图纸。T1.问题文档册总件数;T2.问题图纸总件数。
根据反复测试的结果,若初始模糊查找的相似度太高,则目录与实际存储数字化成果名称不匹配的条数过多,后续修正的工作量过大,故改采用降低模糊查找相似度(本次取0.7),可有效降低不匹配的数据条数,再利用Excel VBA,进行相关数据冗余、数据缺失、匹配错误检核,解决因不同档案文件夹、图纸数字化成果档案名称相似度太高,导致重复匹配的问题,最后检核出来需人工修正数据为2385条,占比全部图纸目录条数约18.7%。第一次模糊查找修正完后,第二次精确查找的正确率就可达到99.8%。若没有特定的辅助手段,则全部电子化名称皆须人工复核,且正确率难以保证,故该方法可以达到实现与实际档案文件夹名称、图纸数字化成果档案名称匹配正确率100%,且兼顾复核效率的目标。本次数据冗余、数据缺失、匹配错误是使用Excel VBA进行复核,其运行效率较为低下,往后可以针对该部分再进行相关算法的优化。
图表编号 | XD00201952400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.30 |
作者 | 许玉德、胡述筌、刘思磊、徐国尧 |
绘制单位 | 上海市轨道交通结构耐久与系统安全重点实验室 |
更多格式 | 高清、无水印(增值服务) |