《表1 微博筛选白名单和黑名单》

《表1 微博筛选白名单和黑名单》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于微博大数据的2010~2018年中国桃花观赏日期时空格局研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

数据筛选通过设置黑名单和白名单的方法完成。自然语言识别是文本分析的难点,丰富的汉语词汇和语法组合形成了人们对同一事件多样的表述方式,但是事件表述的核心词汇和语法有一定的规律。通过设置微博表述“桃花开了”这一事件的黑名单和白名单(表1),保留了诸如“我家门口的桃花开了”的可采信微博,剔除了诸如“梦到桃花开了”的不可采信微博。按照满足白名单但不满足黑名单的原则,对微博正文进行逐条筛选,从而得到可采信的表述桃花物候期信息的微博共计843 034条。