众所周知,最小二乘法对于异常值非常敏感,所以在面对污染数据时常常需要稳健方法。Huber提出的M估计是最流行的稳健回归估计量之一。常用的稳健估计方法通常都是针对回归模型,或者说是基于最小二乘方法。对于回归模型
最小二乘法得到的估计量为
本文介绍了几种基于回归模型的稳健估计方法。
1.Huber回归估计量为
其中 ,为预先给定的阈值。
由上式可以看出,在残差绝对值小于阈值
2.自适应HUber回归
Sun et al.(2020)在Adaptive Huber Regression中提出了自适应Huber回归方法。其大体做法和Huber回归相同,只是阈值的选择采用自适应的方法,通过适应样本量、维数和矩在偏差和稳健性之间权衡。该论文的理论框架处理任意(1 + δ)阶矩有界的重尾分布。
3.指数平方损失
Wang et al.(2013)在Robust Variable Selection With Exponential Squared Loss中提出了一类基于指数平方损失的惩罚鲁棒回归估计量。在给定的正则条件下,该论文的估计量是一致的,并且具有oracle属性。重要的是,该论文证明了估计量可以达到1/2的最高渐近击穿点,并且它们的影响函数与响应或协变量域的异常值有关。其估计量如下
其中是调整参数,是惩罚参数。
4.Tukey’s Biweight损失
Chang et al.(2018)在Robust Lasso Regression Using Tukey’s Biweight Criterion中提出了一种自适应lasso的扩展,称为tukey-lasso。通过使用Tukey的双权准则,而不是平方损失,Tukey-lsaao在响应和协变量中都能抵抗异常值。该论文证明了Tukey-lasso也享有oracle属性。其估计量如下
其中为随机误差的标准差的稳健估计,
其中d是调整常数,类似于Huber损失中的阈值,可以控制稳健性水平。
5.修改的Huber函数
Jiang et al.(2019)在Robust Estimation Using Modified Huber’s Functions With New Tails中通过将Huber函数的尾部替换为指数平方损失来进行稳健估计。在回归框架中,证明了该论文的混合估计量是高效的,达到了50%的最高渐近击穿点。该论文还建立了正则条件下估计量的-一致性和渐近正态性。
其中是尺度参数,是基于残差的归一化中值绝对偏差(MAD)估计量,例如,,
文章出处登录后可见!