《表2 基于查询返回页数的语义相似度计算方法》
一个查询词P的返回页数是指在搜索引擎中查询词语P时返回的包含查询词P的网页总数N(p)。对于连接查询词P和词Q的返回页数可以看作是对词语P和Q共现的全局度量,使用N(p?q)来表示,这些值通常表示的是实际值的估计值。基于查询返回页数的语义相似度计算的方法有很多,最具代表性的方法是Cilibrasi等人于2007年提出的归一化谷歌距离(Normalized Google Distance,NGD)【72】。同年,Bollegala等人启发式地将四种常见的文本共现方法Jaccard、Overlap、Dice、Pointwise mutual information(PMI)应用在谷歌搜索引擎的查询返回页数上,并通过对比实验证明PMI的计算效果最好【73】。张硕望等人针对百度搜索引擎将WebPMI修改为PMIB,使得算法更适用于中文词汇相似度计算【34】,吴克介等人将归一化谷歌距离应用在百度搜索引擎中并与PMIB算法相结合,提出了优化的基于百度搜索引擎的PMINB算法【71】。上述几种方法的具体公式如表2所示,其中N表示一个搜索引擎包含的全部网页数,也称索引总数。
图表编号 | XD0039031600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.01 |
作者 | 王春柳、杨永辉、邓霏、赖辉源 |
绘制单位 | 中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所 |
更多格式 | 高清、无水印(增值服务) |