《表1 表面文本相似度计算方法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《文本相似度计算方法研究综述》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

基于向量空间模型的方法包括匹配系数（Matching Coefficient）、余弦相似度（Cosine）、欧式距离（Euclidean Distance）、曼哈顿距离（Manhattan Distance）【17】、切比雪夫距离（Chebyshev Distance）、布雷柯蒂斯相异性（Bray-Curtis Dissimilarity）【18】等，其中曼哈顿距离、欧式距离和切比雪夫距离可以统一表示为明可夫斯基距离（Minkowski Distance）。这种方法是将术语表示成向量后再进行计算，这里的向量是指通过词频-逆文档频率（Term Frequency-Inverse Document Frequency，TF-IDF）模型将两个文本分别表示为x和y的矢量形式【19】，或者直接通过最简单的词集模型（Set Of Words，SOW）将文本表示为独热向量（One-hot vector）形式，这里的向量都不具有语义信息，仅是简单地将文本表示为向量形式以便于运算。除此之外，通过将文本向量表示看作是不同的变量然后使用统计相关系数Pearson、Spearman和Kendall也可以计算文本相似性【5】。下面我们通过表格的方式将上述一些重要的方法及定义列入表1中。

图表编号	XD0039031500 严禁用于非法目的
绘制时间	2019.03.01
作者	王春柳、杨永辉、邓霏、赖辉源
绘制单位	中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所
更多格式	高清、无水印（增值服务）