《表1 人工删除词汇:校园舆情热点问题提取与分析》
首先对单一文本进行清洗,分别加入停用词,用户自定义词典以及对词性筛选,得到将要用于表征的文本。实验所采用的停用词分为两个部分:(1)从网上找到的停用词表,即一些普遍没有意义的词及标点符号;(2)通过人工筛选得到的对于研究没有意义的词语。在用户自定义词典方面,需要通过人工检查分词结果,手动将被错误切分的词合并并定义词性,然后加入用户自定义词典,这样能够修正被错误分词的词语,获得更多有意义的词语。筛选掉的部分词语如表1所示。
图表编号 | XD00168915600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.15 |
作者 | 郑建灵、张艳玲、田俊雄、黄子豪、梁茵 |
绘制单位 | 广州大学计算机科学与网络工程学院、广州大学计算机科学与网络工程学院、广州大学计算机科学与网络工程学院、广州大学计算机科学与网络工程学院、广州大学计算机科学与网络工程学院 |
更多格式 | 高清、无水印(增值服务) |