《表1 用户、图书及其标签数据集》

《表1 用户、图书及其标签数据集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于图书评论属性挖掘的群组推荐研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

社会化标注网站允许用户自由对资源进行标签标注,这具有一定的随意性,会产生不规范的标签,如复合标签、繁体标签、同义异形标签等,需要进行规范化处理。将“豆瓣读书”中所有热门标签加入用户自定义词典,利用中国科学院NLPIR汉语分词系统[16]对用户标注中产生的复合标签进行分词。经过规范化后,同一标签可能在某一用户或资源中重复出现,剔除重复标签并将重复的图书进行合并。对于图书评论数据,过滤掉长度小于4个汉字以及重复的评论,从而保证数据的有效性。经处理后,得到的数据为20名用户、373本图书资源、674个用户标签和2 528个图书常用标签,如表1-表3所示。