《表1 各关键词搜索量与流感发病数的相关系数》

《表1 各关键词搜索量与流感发病数的相关系数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《利用搜索引擎数据模拟疾病空间分布》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

不同关键词在某一特定时间地点对应不同的搜索频率,它的选取直接影响模型结果,因此必须选择与流感发病高度相关的关键词。本文选取的关键词的百度指数与流感发病数的相关系数大于0.5,并且要求关键词在语义上与流感相关。若同时受到其他变量的影响,与流感无关的关键词也可能与发病数有很高的相关系数。Ginsberg等从五千万个搜索词中选取了相关系数最高的45个,计算量过大,不具有可重复性。以往的研究表明,越多的关键词不能保证越高的模型拟合度,对于一个相对精确的模型,增加一个关键词的边际贡献并不显著,反而增大了计算量[13]。依据以上原则,结合相关文献[4,12-13]选取了咳嗽、发烧、喉咙痛、H7N9、头痛、肺炎、感冒、禽流感、流感、甲流、流感症状、流感病毒、流鼻涕等13个关键词,分别用X1至X13表示,以上关键词的百度指数均在0.01水平上与流感发病数显著相关,具体的相关系数见表1。