《表2 基于查询返回页数的语义相似度计算方法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《文本相似度计算方法研究综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

一个查询词P的返回页数是指在搜索引擎中查询词语P时返回的包含查询词P的网页总数N（p）。对于连接查询词P和词Q的返回页数可以看作是对词语P和Q共现的全局度量，使用N（p?q）来表示，这些值通常表示的是实际值的估计值。基于查询返回页数的语义相似度计算的方法有很多，最具代表性的方法是Cilibrasi等人于2007年提出的归一化谷歌距离（Normalized Google Distance，NGD）【72】。同年，Bollegala等人启发式地将四种常见的文本共现方法Jaccard、Overlap、Dice、Pointwise mutual information（PMI）应用在谷歌搜索引擎的查询返回页数上，并通过对比实验证明PMI的计算效果最好【73】。张硕望等人针对百度搜索引擎将WebPMI修改为PMIB，使得算法更适用于中文词汇相似度计算【34】，吴克介等人将归一化谷歌距离应用在百度搜索引擎中并与PMIB算法相结合，提出了优化的基于百度搜索引擎的PMINB算法【71】。上述几种方法的具体公式如表2所示，其中N表示一个搜索引擎包含的全部网页数，也称索引总数。

图表编号	XD0039031600 严禁用于非法目的
绘制时间	2019.03.01
作者	王春柳、杨永辉、邓霏、赖辉源
绘制单位	中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所
更多格式	高清、无水印（增值服务）