《表3 几个真值的相似值表》

《表3 几个真值的相似值表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向数据集成的多真值发现算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图2展示了两种实现方法在电影数据集上的比较。可以看到,OptMTF的准确度和召回率明显高于OptMTF-s,尽管其执行时间稍长点。图3显示了两种方法在电影数据集上的迭代,这两种方法都可以在几次迭代之后达到收敛。这些数据证明了结合相似值支持的正确性。在现实中,同一个值具有不同表现形式的情况是很常见的。表3中列出了图书“Rapid Contextual Design”(ISBN:0123540518)的作者的相似值。现有的多真值发现算法认为它们是错误的值,但它们并不是完全错误的。它们通常是因为信息不完整或缺少某些部分造成的,结合它们的支持能够提高真值发现的准确性。特别是采用非对称的方法来计算值之间的支持度,使得完整值(即包含其他值)将获得更高的支持度,它们会比其他值更优先被选为真值。例如,当“Jessamyn Burns Wendell”被加入真值集时,根据对目标函数的计算,它的相似值“Jessamyn Wendell”几乎不可能被加入真值集,即使该值的调和置信度和真值很接近,通过这种方法可以得到更准确的真值结果。