《表2 五类文本相似度统计》

《表2 五类文本相似度统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《中国学生英语讲述中国故事的话语方式研究——基于文本发掘的发现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:括号中的值为EJaccard,另一种为余弦值。

在计算余弦相似度时,首先将文本转换为权值向量,通过计算两个向量的夹角余弦值,评估文本之间的相似程度。余弦值在[-1,1]之间,值越接近1代表两个向量分析越接近,两个文本之间的相似度越高。广义的杰卡德系数(EJaccard)用于文本相似性计算,其取值在[0,1]之间,值越大表示两个文本的相似度越高。五类学生写作文本的相似度统计见表2。