《表2 各个问题类别的热度》
本文关注的控制变量有回答是否置顶(is_stickyi)、爬取时间与问答建立时间差(Timediffi)和问题热度(Genrei),前两项可从网站直接获取。在行一点平台未从问题层面对问答类别细分,本文采用结合回答者类别和文本主题分类的方法归并问题类别,从而计算问题热度。首先形成各个问题的细分类别标签Tag,对每个问题分别采用百度文本分类模型形成细分类别标签Tag_1和按平台标注的回答者所属类别形成细分类别标签Tag_2,最终问题细分类别标签Tag的确定如下:(1)若问题回答者是非认证用户,则Tag=Tag_1;(2)若问题回答者是认证用户,依据经验规则进行匹配,如Tag_1=“科普”且Tag_2=“外科手术”,则Tag=“健康”;(3)对于匹配规则之外的未标注问答,采用人工标注的方式形成类别标签Tag。然后合并细分类别形成主类别,如“音乐”“娱乐”“时尚”归类于“兴趣”主类别下,最终得到“财经”“健康”“教育”“社会”和“兴趣”五大问题类别;各个类别与总数相比即可得到不同类别的问题热度,如表2所示。
图表编号 | XD00124084700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.25 |
作者 | 赵庆亮、王培勇、陈吉 |
绘制单位 | 北京化工大学经济管理学院、北京化工大学经济管理学院、国家档案局档案科学技术研究所 |
更多格式 | 高清、无水印(增值服务) |