《表1 基于编辑距离纠正中文机构名称示例》
对于未登录机构名称,搜索引擎不能将该类型消歧。本文采取基于编辑距离的机构名称修正方法。编辑距离(Edit Distance),又称Levenshtein距离,是指两个字符串之间,由一个转化成另一个所需的最少编辑操作次数。编辑操作支持插入、删除、修改三种操作。编辑距离常用语拼写错误纠正场景下,针对已输入错误文本智能识别并提示纠正后的文本。本文选取编辑距离为1或2的机构名称进行修正,如表1所示。
图表编号 | XD00192437100 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.05 |
作者 | 左昌麒、梅洋、房俊、梁英 |
绘制单位 | 北方工业大学信息学院、北方工业大学信息学院、北方工业大学信息学院、中国科学院计算技术研究所 |
更多格式 | 高清、无水印(增值服务) |