Statsmodel线性回归模型总结的简单解释

Statsmodel 库模型摘要说明 — 简介 回归分析是许多统计学家和数据科学家的生计。我们出于预测的目的执行简单和多元线性回归,并且总是希望获得一个没有任何偏差的稳健模型。 …

Statsmodel线性回归模型总结的简单解释

Statsmodel库模型总结说明

Statsmodel线性回归模型总结的简单解释

Introduction

回归分析是许多统计学家和数据科学家的生计。我们出于预测的目的执行简单和多元线性回归,并且总是希望获得一个没有任何偏差的稳健模型。在本文中,我将使用一个简单的示例讨论 python 的 statsmodel 库的摘要输出,并解释一下这些值如何反映模型性能。

典型机型汇总

出于演示的目的,我将使用 kaggle 的 Salary 数据集(Apache 2.0 开源许可)。该数据集有两列:年经验和薪水。我还有两个两列:Projects 和 People_managing。[0][1]

Statsmodel线性回归模型总结的简单解释

当我们使用 statsmodel 使用所有三个变量来预测 Salary 时,我们得到以下汇总结果。

Statsmodel线性回归模型总结的简单解释

我将在下面的摘要中解释所有这些参数。

深度变量

“薪水”是数据中唯一的因变量。

模型与方法

OLS 代表普通最小二乘。该模型试图找出数据集的线性表达式,以最小化残差平方和。

DF残差和DF模型

我们总共有 30 个观察和 4 个特征。在 4 个特征中,3 个特征是独立的。因此 DF 模型为 3。DF 残差是根据总观察值 -DF 模型 1 计算的,在我们的例子中为 30-3-1 = 26。

协方差类型

协方差类型通常是非稳健的,这意味着没有消除数据来计算特征之间的协方差。协方差显示两个变量如何相对于彼此移动。如果该值大于 0,则两者都沿相同方向移动,如果该值小于 0,则变量以相反方向运行。协方差是与相关性的差异。协方差不提供关系的强度,仅提供运动的方向,而相关值是标准化的,范围在 -1 到 +1 之间,相关性提供关系的强度。如果我们想获得稳健的协方差,我们可以声明 cov_type=HC0/HC1/HC2/HC3。但是,statsmodel 文档并不能解释所有这些。 HC 代表异方差一致,HC0 实现了最简单的版本。

R-squared

R平方值是确定系数,表示如果数据由所选自变量解释,则可变性百分比。

调整。 R平方

随着我们向模型中添加越来越多的自变量,R 平方值会增加,但实际上,这些变量不一定对解释因变量有任何贡献。因此,添加每个不必要的变量需要某种惩罚。当包含多个变量时,会调整原始 R 平方值。本质上,我们应该在执行多元线性回归时始终寻找调整后的 R 平方值。对于单个自变量,R 平方和调整后的 R 平方值相同。

在转向 F 统计量之前,我们需要先了解 t 统计量。下表提供了 T 统计量。

Statsmodel线性回归模型总结的简单解释

coef 和 std 错误

coef 列表示每个自变量的系数以及截距值。 Std err 是所有数据点对应变量系数的标准差。当只使用一个预测变量时,可以从这个二维空间中得到标准误差,如下所示

Statsmodel线性回归模型总结的简单解释

t 值和 P>|t|

t 列提供对应于每个自变量的 t 值。例如,这里的 Projects、People_managing 和 Salary 都具有不同的 t 值以及与每个变量相关联的不同 p 值。 T 统计量用于计算 p 值。通常,当 p 值小于 0.05 时,它表明有强有力的证据反对零假设,即相应的自变量对因变量没有影响。 Projects 的 P 值 0.249 表明,Projects 变量有 24.9% 的可能性对薪水没有影响。 YearsExperience 的 p 值似乎为 0,表明 YearsExperience 的数据具有统计显着性,因为它小于临界限值 (0.05)。在这种情况下,我们可以拒绝原假设,并说 YearsExperience 数据显着控制了 Salary。

Statsmodel线性回归模型总结的简单解释

F-statistics

F检验提供了一种方法来检查所有自变量,如果其中任何一个与因变量相关。如果 Prob(F-statistic) 大于 0.05,则没有证据表明任何自变量与输出之间存在关系。如果小于 0.05,我们可以说至少有一个变量与输出显着相关。在我们的示例中,p 值小于 0.05,因此,一个或多个自变量与输出变量 Salary 相关。我们之前已经看到 YearsExperience 与 Salary 显着相关,但其他则不然。因此,F 检验数据支持 t 检验结果。但是,在某些情况下,prob(F-statistic) 可能大于 0.05,但其中一个自变量显示出强相关性。这是因为每个 t 检验都是使用不同的数据集进行的,而 F 检验检查包括全局所有变量的组合效应。

Log-likelihood

对数似然值是模型与给定数据拟合的度量。当我们比较两个或多个模型时,它很有用。对数似然值越高,模型越适合给定数据。它的范围可以从负无穷到正无穷。

Statsmodel线性回归模型总结的简单解释Statsmodel线性回归模型总结的简单解释

当模型中包含所有三个自变量时,对数似然值为 -310.21,高于仅包含 Projects 数据时的 -334.95。这意味着第一个模型更适合数据。如上所示,它还与 R 平方值密切相关。

AIC 和 BIC

AIC(代表日本统计学家 Hirotugo Akaike 开发的 Akaike 信息标准)和 BIC(代表贝叶斯信息标准)也被用作模型稳健性的标准。目标是最小化这些值以获得更好的模型。我有另一篇文章讨论了这些主题。

综合和概率(综合)

部署模型后,综合测试会检查残差的正态性。如果该值为零,则表示残差完全正常。在这里,在示例中 prob(Omnibus) 为 0.357,表明残差有 35.7% 的机会呈正态分布。为了使模型具有鲁棒性,除了检查 R 平方和其他量规之外,还要求残差分布在理想情况下是正态的。换句话说,当根据拟合值绘制残差时,残差不应遵循任何模式。

偏斜和峰度

偏度值告诉我们残差分布的偏度。正态分布变量的偏斜值为 0。峰度是与正态分布相比的轻尾或重尾分布的量度。峰度高表示分布太窄,峰度低表示分布太平。 -2 和 +2 之间的峰度值可以很好地证明常态。

Durbin-Watson

Durbin-Watson 统计量提供残差中的自相关度量。如果残差值是自相关的,则模型会出现偏差并且不是预期的。这仅仅意味着一个值不应依赖于任何先前的值。此测试的理想值范围为 0 到 4。

Jarque-Bera (JB) 和 Prob(JB)

Jarque-Bera (JB) 和 Prob(JB) 类似于测量残差正态性的 Omni 检验。

条件编号

高条件数表示数据集中可能存在多重共线性。如果仅使用一个变量作为预测变量,则该值较低,可以忽略。我们可以像逐步回归一样进行,看看在包含其他变量时是否添加了任何多重共线性。

Conclusion

我们已经讨论了来自 statsmodel 输出的所有摘要参数。这对于有兴趣检查所有量规以获得稳健模型的读者很有用。大多数时候,我们寻找 R 平方值以确保模型解释了大部分可变性,但我们已经看到有很多比那更多的。

谢谢阅读

Github页面[0]

优酷频道[0]

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年4月25日
下一篇 2022年4月25日

相关推荐