《表2 临界值探索结果:异常值检测在成品油零售客户消费行为分析中的应用》

《表2 临界值探索结果:异常值检测在成品油零售客户消费行为分析中的应用》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《异常值检测在成品油零售客户消费行为分析中的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先对衍生变量进行统计分布的检测,最常见的统计分布为正态分布。若数据不服从正态分布,可以通过对数转换等方式,使其服从正态分布。根据正态分布的特点,采用3σ准则进行疑似异常客户的筛选,将均值±3倍标准差范围以外的点认为是异常值,但在实际应用中,判断标准(即标准差的倍数)通常根据实际业务需要选取。若数据转换后仍不服从正态分布,则采用箱线图法进行疑似异常客户的筛选。箱线图法认为在数据Q3(第三分位数)+1.5IQR(四分位距)和Q1(第一分位数)-1.5IQR处为异常值截断点,称其为内限。将内限以外位置的点认为是异常值,实际应用中,判断标准(即IQR的倍数)通常也是根据实际业务需要确定。按照3σ准则、箱线图法对衍生变量进行探索,筛选出疑似异常客户,如表2所示。表2给出各衍生变量的临界值,将临界值以外的客户筛选为疑似异常客户,如加油时间间隔小于15 min的客户。这里将触发任一变量临界值的客户都筛选为疑似异常客户,按照客户ID进行汇总和去重后合计1.6万人,数量较大,仍需进一步聚类排查。临界值探索结果详见表2。