《表4 多源数据融合结果(脱敏处理)》
在此基础上,通过人工筛选匹配的属性对,可进行进一步的实体对齐与融合.结合真实数据,对融合结果进行分析,发现指代同一实体的匹配数据中,存在部分不完全匹配数据(如表4加粗字段所示),包括公司更名或公司简称导致的书写不一致、企业信用代码书写格式不同、录入出错等情况,进一步验证了多样性取样策略的引入有利于潜在对齐数据的发现,有效地解决了“信息孤岛”现象中不同数据源数据难以互连互通的问题.
图表编号 | XD00168233700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.20 |
作者 | 丁玥、王涓、卢卫、荣垂田、杜小勇 |
绘制单位 | 数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院、数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院、数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院、天津工业大学计算机科学与技术学院、数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院 |
更多格式 | 高清、无水印(增值服务) |