《表4 筛选后的特征汇总表》

《表4 筛选后的特征汇总表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向企业舆情监测的事件画像与高危人群预测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先,通过分箱对变量做离散化处理,本文选择卡方分箱方法。分箱后,连续变量被划入对应取值区间,同时被赋予对应的证据权重WOE值,WOE是对原始自变量编码的一种方式。在后续逻辑回归建模过程中,自变量将以WOE值表示。分箱后,选择基于IV值(证据权重)进行筛选的方式对表1提出的特征进行选择。IV值表征每个指标对应的信息价值,IV值越高,自变量对目标的影响越大,一般需要保留IV值高于0.02的特征。通过筛选的特征如表4所示。此外,表4还提供了通过筛选的各个特征的取值区间、各取值区间对应的WOE值及代表性分析结果。训练集分组样本占比用来描绘训练样本落入各个取值区间的比例。训练集坏样本率用来刻画训练集中的坏样本(高危人群)落入各个取值区间的比例,用以评估坏样本在各个取值区间出现的概率。从8065名用户中随机抽取70%的用户数据作为训练集,剩余30%的用户数据作为测试集。将表4中的特征作为训练模型的特征输入得到如表5所示的逻辑回归指标系数。根据表5中的逻辑回归指标系数,建立高危人群预测模型,如等式(11)所示。