《表1 微博筛选白名单和黑名单》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于微博大数据的2010~2018年中国桃花观赏日期时空格局研究》
数据筛选通过设置黑名单和白名单的方法完成。自然语言识别是文本分析的难点,丰富的汉语词汇和语法组合形成了人们对同一事件多样的表述方式,但是事件表述的核心词汇和语法有一定的规律。通过设置微博表述“桃花开了”这一事件的黑名单和白名单(表1),保留了诸如“我家门口的桃花开了”的可采信微博,剔除了诸如“梦到桃花开了”的不可采信微博。按照满足白名单但不满足黑名单的原则,对微博正文进行逐条筛选,从而得到可采信的表述桃花物候期信息的微博共计843 034条。
图表编号 | XD0085908900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 刘俊、王胜宏、金朦朦、李宁馨 |
绘制单位 | 四川大学旅游学院、四川大学旅游学院、四川大学旅游学院、四川大学旅游学院 |
更多格式 | 高清、无水印(增值服务) |