《表2 类目特征词:基于Doc2vec的专利与行业类目映射研究》
本文前期通过TF-IDF进行IPC与NIC农业类目相似度计算时发现计算结果值较小,许多类目相似值为0,后期需要做其他的处理。通过对Word2vec和Doc2vec介绍,可知Word2vec主要用于词语的向量化,Doc2vec是对Word2vec的改进,更适合应用于文档向量化。鉴于上述两种情况,本文使用Doc2vec进行文本向量化。实验根据语料库的特点将IPC与NIC的每个类目及其类目注释创建为一个txt文档,通过Python进行Jieba分词,再使用Doc2vec算法进行文档向量化和余弦相似度的计算。其文本形式如表2所示,分别以NIC和IPC中的第一个txt文件0111和A01B举例。
图表编号 | XD00168277300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.15 |
作者 | 马晓萌、徐峰、刘清民、封颖 |
绘制单位 | 中国科学技术信息研究所战略研究中心、中国科学技术信息研究所战略研究中心、中国科学技术信息研究所战略研究中心、中国科学技术信息研究所战略研究中心 |
更多格式 | 高清、无水印(增值服务) |