《表4 训练集去停用词结果示例》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析》
专利文本中存在大量只起到语法作用的词语(如:的、是等),以及对专利分类无贡献价值的词语(如:专利、刀具等),还有对文本分类无意义的标点符号,将这些都称为停用词,大量停用词会对分类分析造成影响,同时,网络上的常用停用词中也包含可能对分类产生影响的词汇,如“对称”可能与发明原理的非对称相关。因此需要统计词频,对停用词进行筛选。通过建立停用词表去除停用词,表中包含大约1 500个停用词。去除停用词后的专利文本示例如表4所示。
图表编号 | XD00139948500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.25 |
作者 | 胡勇军、韦婷婷、窦子欣、黄芸茵、梁锐成、常会友 |
绘制单位 | 广州大学工商管理学院、华南农业大学数学与信息学院、广州大学工商管理学院、中山大学数据科学与计算机学院、广州小云软件科技有限公司、中山大学数据科学与计算机学院 |
更多格式 | 高清、无水印(增值服务) |