《表2 类目特征词:基于Doc2vec的专利与行业类目映射研究》

《表2 类目特征词:基于Doc2vec的专利与行业类目映射研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Doc2vec的专利与行业类目映射研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文前期通过TF-IDF进行IPC与NIC农业类目相似度计算时发现计算结果值较小,许多类目相似值为0,后期需要做其他的处理。通过对Word2vec和Doc2vec介绍,可知Word2vec主要用于词语的向量化,Doc2vec是对Word2vec的改进,更适合应用于文档向量化。鉴于上述两种情况,本文使用Doc2vec进行文本向量化。实验根据语料库的特点将IPC与NIC的每个类目及其类目注释创建为一个txt文档,通过Python进行Jieba分词,再使用Doc2vec算法进行文档向量化和余弦相似度的计算。其文本形式如表2所示,分别以NIC和IPC中的第一个txt文件0111和A01B举例。