2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图

1.1、业务法

  根据对业务的理解,然后对每一个指标设定一个合理的范围,一旦超过这个范围,则认为是异常值。比如收入,一般来说都是正数,如果出现小于0,则认为是异常值;再比如年龄,正常的年龄可能在100以内,如果出现年龄是好几百的,那么也认为是异常值。

1.2、32、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图准则

  32、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图准则又称拉依达准则,是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

  2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图,仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的。

  在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图:

3σ原则为:

  • p(μ-σ<X<μ+σ)中的概率为68.26%
  • p(μ-2σ<X<μ+2σ)中的概率为95.44%
  • p(μ-3σ<X<μ+3σ)中的概率为99.73%

  可以认为,X 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

1.3、Z-score

  Z-Score也称为标准分数,是一维或低维特征空间中的参数异常检测方法。假定数据服从高斯分布,异常值是分布尾部的数据点,远离数据的平均值。

  其数学定义:
2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图

  那么如何确定异常值的阈值呢?2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图值一般设置为2.5、3.0或3.5

2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图

  99.7% 的数据在正态分布的 -3、+3 标准差范围内,因此我们也可以将超出此范围的数据点视为异常值。

  注意事项

  基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。

1.3、箱形图(四分位距 – IQR)法

  箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息。

  在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(li)的异常值extreme outliers。

  • 1.直观明了地识别数据批中的异常值

  异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错,没有对数据作任何限制性要求。另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。

  • 2.利用箱线图判断数据批的偏态和尾重

  比较标准正态分布、不同自由度的t分布和非对称分布数据的箱线图的特征,可以发现:对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱线图的方盒关于中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的概率观察到异常值。以卡方分布作为非对称分布的例子进行分析,发现当卡方分布的自由度越小,异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较小值一侧,则分布呈现左偏态;;异常值集中在较大值一侧,则分布呈现右偏态。

引用MBA智库箱线图

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年5月24日
下一篇 2022年5月24日

相关推荐