《表2 用户词典及停用词表》
使用Jieba分词工具对众测报告的文本进行分词处理。Jieba是目前运用最广泛的中文词法分析器之一,其以ICTCLAS为内核基础,最新的分词系统精度高达98.45%(1)。由于Dealmoon平台属于提供购物建议的社交购物社区,文本中包含大量有关互联网、产品及商家名称、产品推荐等的专业词汇和新兴词汇,为得到更好的分词效果,本文建立基于评论语境的用户词典和停用词典,具体如表2所示。用户词典包括产品及商家名称、体验描述和网络用语及缩写,作用是识别购物建议类的专属词,以达到更准确的分词效果。停用词典来自于哈尔滨工业大学停用词表,该词表是中文常用的停用词表,作用是过滤掉分词结果中无意义的停止词,如标点符号、虚词、表情符号及其他无意义的词语。为进一步保证分词的完整性,对分词后的结果进行词频统计,对词频大于100的词进行人工核对。无意义词纳入停用词典,将误分的词纳入用户词典中。
图表编号 | XD00198147200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.25 |
作者 | 蔡婧璇、吴江、王诚坤 |
绘制单位 | 武汉大学信息管理学院、武汉大学信息管理学院、武汉大学电子商务研究与发展中心、武汉大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |