Outlier Detection (Part 2)

Adjusted Boxplot for skewed distribution — 简介 在上一篇文章中,我讨论了大多数正态分布的异常值检测程序。这些程序包括 IQR(四分位间距)标准偏差 Z 分数 修正的 Z 分数 我们在上述程序实施后查看了箱线图,并显示了每种情况下的异常值数量。现实…

Outlier Detection (Part 2)

针对偏态分布的调整箱线图

Outlier Detection (Part 2)

Introduction

在上一篇文章中,我讨论了大多数正态分布的异常值检测程序。程序包括[0]

  1. IQR(四分位距)
  2. Standard deviation
  3. Z-score
  4. Modified Z-score

在实施上述这些程序后,我们已经浏览了箱线图,并显示了每种情况下异常值的数量。在真实数据集中,分布并不总是正常的。通常,它们是倾斜的并且包含不需要的极端值。在本文中,我将介绍偏态分布的异常值检测过程,并相应地调整箱线图。

Skewed Distribution

IQR 方法以及标准差、Z 分数和修正的 Z 分数都适用于非常好的正态或接近正态分布。然而,大多数实际工作数据并不正常,并且经常出现偏差。这意味着数据可以在分布的低端或高端有尾部。这些类型的偏态分布如下所示。对于偏斜的数据,相应的箱线图也可能变得不对称。

Outlier Detection (Part 2)

半四分位距 (SIQR)

奥克雷曼 L. 等人。 [1] 提出使用半四分位间距 (SIQR) 来调整这些偏态分布的上限和下限,但后来很明显它不支持对长尾分布的箱线图进行适当调整。例如,我们想要比较相同 AirBnB 数据的一个倾斜箱线图,并提取联排别墅的价格。使用标准 IQR 方法会提供一个异常值,而 SIQR 也会产生一个异常值。因此,不幸的是,SIQR 方法在我们的案例中对调整箱线图没有太大帮助 [2]。[0]

用于 SIQR 实现的公式是

Outlier Detection (Part 2)Outlier Detection (Part 2)Outlier Detection (Part 2)

Medcouples

布赖斯等人。引入了 medcouples 的概念来测量具有连续单峰分布的单变量样本的偏度。这意味着感兴趣的参数应该有一个清晰的单峰,而另一个可能的峰没有任何重叠。定义如下核函数

Outlier Detection (Part 2)

其中 xi < Q2 < xj。核函数 h 也定义为

Outlier Detection (Part 2)

这个定义非常类似于 Bowley [4] 提出的四分位偏度测量

Outlier Detection (Part 2)

[2] 中设置了一组新的异常值限制,其中包含了如下所示的医学对。

下限:Q1-h_low (MC) * IQR

上限:Q3+ h_high (MC) * IQR

显然,这个核函数可以通过线性或二次或指数模型来使用。但是,我们不会详细介绍这些细节,但我们将在 python 中实现 medcouple 计算,如果有兴趣了解更多信息,读者可以阅读 [2]。简而言之,很明显,与 1.5 的固定 IQR 乘数相比,这里我们基本上部署到不同的内核函数(h_low 和 h_high),因此,我们将获得与标准 IQR 过程不同的不对称边界。

Medcouples in python

使用 stasmodel 库在 python 中实现 medcouple 的计算非常简单。

对于这个数组,medcouple 值为 0.145,这是上面讨论的所有核函数值的中值。据报道,与二次模型相比,指数模型更有效且更方便,因为它只有一个参数要解决,而二次模型可以有几个未知变量来确定,具体取决于模型的复杂性。

Outlier Detection (Part 2)

指数项的乘数在[2]中取为1.5,可以通过对不同值的数据进行拟合来计算a和b的值。我们可以在以后的文章中讨论如何使用线性、二次和指数模型。但是现在,通过阅读到目前为止,您已经很好地理解了为什么传统的 IQR 方法和箱线图不能用于偏态分布。

Conclusion

在本文中,我们介绍了偏态分布的基本概念,并说明了为什么确定异常值的传统方法可能会产生一些后果。常规 IQR 限制之外的数据点不一定是真正的异常值。利用 medcouple 程序,我们可以有不对称的边界并更有效地提取异常值,这些异常值有更多的机会表现出与大多数人口不同的行为。

Thanks for reading.

Useful links

Github page[0]

我的网站:从数据中学习[0]

References

  1. Aucremanne, Luc & Brys, Guy & Hubert, Mia & Rousseeuw, Peter & Struyf, Anja。 (2004 年)。比利时通货膨胀、相对价格和名义刚性的研究,使用新的偏度和尾重的稳健措施。 10.1007/978–3–0348–7958–3_2。
  2. M. Hubert 和 E. Vandervieren,“倾斜的调整箱线图
    分布”,计算统计与数据分析,第 52 卷,第 12 期,2008 年 8 月 15 日,第 5186-5201 页[0][1]
  3. Brys, G.、Hubert, M.、Struyf, A.,“A Robust Measure of Skewness”,计算与图形统计杂志,2004 年,第 13 卷,996 -1017
  4. Bowley, A.L.,1920 年。统计要素。查尔斯斯克里布纳之子,纽约

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
上一篇 2022年6月14日 上午11:47
下一篇 2022年6月14日 上午11:55
本站注重文章个人版权,不会主动收集付费或者带有商业版权的文章,如果出现侵权情况只可能是作者后期更改了版权声明,如果出现这种情况请主动联系我们,我们看到会在第一时间删除!本站专注于人工智能高质量优质文章收集,方便各位学者快速找到学习资源,本站收集的文章都会附上文章出处,如果不愿意分享到本平台,我们会第一时间删除!