《表1 部分共现词组:基于词共现的文本分类算法》

《表1 部分共现词组:基于词共现的文本分类算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于词共现的文本分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先,对采集到的web政策文本进行预处理,包括数据清洗、分词、去停用词等操作;其次统计词频完成去除低频词,计算关键词TF-IDF权值;再进行分类对比实验,第一次实验利用TF-IDF算法提取关键词,得到关键词1492个;第二次实验利用词共现算法从每类文档中提取共现率为前30的关键词组,共300个关键词,远少于前者提取的关键词数量,有效降低了空间维度,每类文档提取的部分共现词组如表1所示。之后将文档数据按7:3的比例分为训练集和测试集两部分,其中训练集1305篇,测试集444篇。最后利用SVM算法分别完成文本分类。实验中涉及到的算法均由python语言实现,分词工具选用结巴分词模块,中间分词、提取关键词等保存为TXT及CSV格式文件。