《表1 用户、图书及其标签数据集》
社会化标注网站允许用户自由对资源进行标签标注,这具有一定的随意性,会产生不规范的标签,如复合标签、繁体标签、同义异形标签等,需要进行规范化处理。将“豆瓣读书”中所有热门标签加入用户自定义词典,利用中国科学院NLPIR汉语分词系统[16]对用户标注中产生的复合标签进行分词。经过规范化后,同一标签可能在某一用户或资源中重复出现,剔除重复标签并将重复的图书进行合并。对于图书评论数据,过滤掉长度小于4个汉字以及重复的评论,从而保证数据的有效性。经处理后,得到的数据为20名用户、373本图书资源、674个用户标签和2 528个图书常用标签,如表1-表3所示。
图表编号 | XD00139960800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.25 |
作者 | 熊回香、李晓敏、李跃艳 |
绘制单位 | 华中师范大学信息管理学院、华中师范大学信息管理学院、南京大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |