《表2 用户词典及停用词表》

《表2 用户词典及停用词表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的众测报告有用性预测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

使用Jieba分词工具对众测报告的文本进行分词处理。Jieba是目前运用最广泛的中文词法分析器之一,其以ICTCLAS为内核基础,最新的分词系统精度高达98.45%(1)。由于Dealmoon平台属于提供购物建议的社交购物社区,文本中包含大量有关互联网、产品及商家名称、产品推荐等的专业词汇和新兴词汇,为得到更好的分词效果,本文建立基于评论语境的用户词典和停用词典,具体如表2所示。用户词典包括产品及商家名称、体验描述和网络用语及缩写,作用是识别购物建议类的专属词,以达到更准确的分词效果。停用词典来自于哈尔滨工业大学停用词表,该词表是中文常用的停用词表,作用是过滤掉分词结果中无意义的停止词,如标点符号、虚词、表情符号及其他无意义的词语。为进一步保证分词的完整性,对分词后的结果进行词频统计,对词频大于100的词进行人工核对。无意义词纳入停用词典,将误分的词纳入用户词典中。