《表1 清洗后数据详情:传播视域下对京剧文化的认知分析》

《表1 清洗后数据详情:传播视域下对京剧文化的认知分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《传播视域下对京剧文化的认知分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
单位:条

数据采集完成后,存在大量不合格的数据,如字符编码错误、格式混乱、信息不完整、重复、空白、非文本等。直接利用未清洗数据进行分析可能会导致文本分词结果、关键词统计、情感分析出现较大误差,因此在数据处理前需要对数据进行清洗。清洗方法包括:(1)将微博中emoji表情通过python中的emoji包转换为文字进行储存;(2)通过正则匹配删除数据中多余的空格和不必要的符号(例如“/”“#”“*”等);(3)删除记录中不合规的数据,如重复数据、空白数据、主体信息为非文本(视频、图片)的数据;(4)删除微博中存在的官方博文。由于官方账号有较为明显的命名方式(如xx大学、xx京剧院、xx日报等),因此将电视台、广播、报纸、大学、京剧院、京剧团、报刊、杂志社、综艺平台作为关键词,将包括这些关键词的官方账号及其发布的博文进行剔除。数据清洗完成后得到符合条件的数据总数为35 865条,具体数量如表1所示。