《表2 基于查询返回页数的语义相似度计算方法》

《表2 基于查询返回页数的语义相似度计算方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《文本相似度计算方法研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

一个查询词P的返回页数是指在搜索引擎中查询词语P时返回的包含查询词P的网页总数N(p)。对于连接查询词P和词Q的返回页数可以看作是对词语P和Q共现的全局度量,使用N(p?q)来表示,这些值通常表示的是实际值的估计值。基于查询返回页数的语义相似度计算的方法有很多,最具代表性的方法是Cilibrasi等人于2007年提出的归一化谷歌距离(Normalized Google Distance,NGD)【72】。同年,Bollegala等人启发式地将四种常见的文本共现方法Jaccard、Overlap、Dice、Pointwise mutual information(PMI)应用在谷歌搜索引擎的查询返回页数上,并通过对比实验证明PMI的计算效果最好【73】。张硕望等人针对百度搜索引擎将WebPMI修改为PMIB,使得算法更适用于中文词汇相似度计算【34】,吴克介等人将归一化谷歌距离应用在百度搜索引擎中并与PMIB算法相结合,提出了优化的基于百度搜索引擎的PMINB算法【71】。上述几种方法的具体公式如表2所示,其中N表示一个搜索引擎包含的全部网页数,也称索引总数。