《表2 LRCFP各特征计算方法》
探索4.1节中的数据,在数据清洗时,去除作品数大于0且播放数为0的无效数据,由于这部分数据占比较小,对研究影响不大,故直接进行丢弃。有效数据计14295个。在属性约简时,根据LRCFP模型,抽取6个属性:发布第一部作品的时间(Original_time)、发布最后一部作品的时间(Latest_time)、作品总数(Contributions)、粉丝数(Fans)、累积播放数(Plays)、观测时间(Observe_time)。将14295个有效数据打散,抽取11000个数据作为建模数据,3295个数据作为增量未知数据。根据3.1节LRCFP特征模型中L、R、C、F、P的定义做数据变换,如表2所示。使用拉格朗日多项式插值法填补缺失值,由于各特征取值范围差异较大,为了规避数据数量级别的影响,对数据做Z-score标准化处理。
图表编号 | XD006052500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.25 |
作者 | 冯秋燕、朱学芳 |
绘制单位 | 南京大学信息管理学院多媒体信息研究所、南京大学信息管理学院多媒体信息研究所 |
更多格式 | 高清、无水印(增值服务) |