《表1 实验土壤性质:一种基于概率潜在语义分析的专利主题标引方法研究》
本实验在上海知识产权公共服务平台的中国专利数据库中选取水处理技术领域的1000篇专利文献作为语料库[15]。实验选择IPC号为D06(织物等的处理;洗涤;其他类不包括的柔性材料)和E03(给水;排水)的部分专利文本作为实验数据。这些专利的IPC分类号中大类为D06、E03的各有250篇,具体来说,小类号为D06M有78篇,D06B有26篇,D06F有86篇,D06P有27篇,E03C有56篇,E03B有55篇,E03D有84篇,E03F有55篇。为了更好地展示实验步骤,将训练集和测试集的个数调整到基本相同,如表1所示,将IPC分类号为D06B、D06M、E03C和E03D看作训练集,D06F、D06P、E03D和E03F作为测试集,通过训练集中已标引的专利数据,建立标引模型而确定测试集中未标引数据对应IPC分类号的大类信息,以此实现专利的自动标引。
图表编号 | XD00204814700 严禁用于非法目的 |
---|---|
绘制时间 | |
作者 | 包翔、刘桂锋 |
绘制单位 | 江苏大学科技信息研究所、江苏大学科技信息研究所 |
更多格式 | 高清、无水印(增值服务) |