《表1 表面文本相似度计算方法》
基于向量空间模型的方法包括匹配系数(Matching Coefficient)、余弦相似度(Cosine)、欧式距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)【17】、切比雪夫距离(Chebyshev Distance)、布雷柯蒂斯相异性(Bray-Curtis Dissimilarity)【18】等,其中曼哈顿距离、欧式距离和切比雪夫距离可以统一表示为明可夫斯基距离(Minkowski Distance)。这种方法是将术语表示成向量后再进行计算,这里的向量是指通过词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型将两个文本分别表示为x和y的矢量形式【19】,或者直接通过最简单的词集模型(Set Of Words,SOW)将文本表示为独热向量(One-hot vector)形式,这里的向量都不具有语义信息,仅是简单地将文本表示为向量形式以便于运算。除此之外,通过将文本向量表示看作是不同的变量然后使用统计相关系数Pearson、Spearman和Kendall也可以计算文本相似性【5】。下面我们通过表格的方式将上述一些重要的方法及定义列入表1中。
图表编号 | XD0039031500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.01 |
作者 | 王春柳、杨永辉、邓霏、赖辉源 |
绘制单位 | 中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所、中国工程物理研究院计算机应用研究所 |
更多格式 | 高清、无水印(增值服务) |