《表2 不同匹配数的性能指标》

《表2 不同匹配数的性能指标》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《自然语言语义库构建方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

验证网页是否处于基于TF-IDF和数据集字向量距离的网页删除算法中的标准,即判断两个文本的关键词是否相同,Word2Vec找到多少个与关键词最接近的词,使得算法具有最高的精度。将500个文本作为数据集抓取,其中包含50个文本,其内容重复,这意味着对原始文本进行少量修改。根据不同匹配的数目,算法的精确率和召回率如表2所示。