卡方分布简单解释
卡方分布及其起源的简单解释
Introduction
在我之前的文章中,我们推导出并讨论了 Gamma 分布,您可以在此处查看:
在这篇文章中,我们将解释 Gamma 分布的一个特殊情况,即卡方分布。这种分布在统计学中无处不在,甚至有自己的检验,在数据科学中经常使用,即卡方检验。
我们将通过推导其概率密度函数 (PDF) 来了解分布的起源,并展示它与 Gamma 分布的关系。
Origins
卡方分布 𝜒2 是对标准正态分布中的 v 个随机自变量求和的结果:
让我们分解这个表达式。
X 值是从标准正态分布中采样的随机变量。这是一个均值为 0,方差为 1 的正态分布,N(0,1):[0]
v 是自由度,它是我们从分布中采样的变量数。因此,如果我们从标准正态分布中抽取一个变量 v = 1:[0]
卡方分布如下所示:
这有意义吗?当我们对值进行平方时,它们将显着减少或增加并变为正数。此外,由于对介于 -1 和 1 之间的变量进行采样的概率相对较高,因此对它们进行平方意味着它们将变得更小。因此,我们观察到大部分密度都在左侧。
当我们有三个自由度时怎么样,v = 3:
Plotting this distribution:
我们看到这些值平均要大得多,而且更偏左。这是有道理的,因为当我们有更多的自由度时,我们更有可能对高值数字进行采样。求和自然也会导致更高的值。
这就是它的全部内容!卡方只是从标准正态分布中选择的值的平方。
导出概率密度函数
现在我们将推导出具有一个自由度 v = 1 的卡方分布的概率密度函数 (PDF)。[0]
让我们从标准正态分布的 PDF 开始:
要计算 PDF,我们需要找到累积密度函数 (CDF),然后简单地将其微分以返回 PDF。 CDF的定义是:[0]
将其应用于卡方公式,我们想要找到 𝑋² 的 PDF:
现在这个推导需要许多积分和许多替换,因此我省略了完整的证明,因为我不希望这篇文章变成研究论文!但是,这里有一篇很棒的帖子和这里的网页,它彻底而干净地贯穿了整个证明。[0][1]
尽管如此,通过进行微分,最终的 PDF 等于:
事实上,这只是一个自由度的 PDF。 v 自由度的 PDF 为:
其中Γ是伽马函数。对于半正整数值,函数的形式为:[0]
可以看出,通过设置 v = 1,我们得到了我们上面推导出的一个自由度的 PDF。
与 Gamma 分布的关系
我们知道 Gamma 分布由两个值参数化:
- λ,事件发生率
- n, 您正在等待的事件数
其概率密度函数(PDF)为:
其中 x 是感兴趣的随机变量。
为了全面了解这个表达式的来源,我建议阅读我之前关于 Gamma 分布的文章。[0]
通过设置 n = v/2 和 λ = 1/2:
我们证明卡方分布只是伽玛分布的一个特例!
Conclusion
在本文中,我们展示了如何从第一原理和 Gamma 分布推导出卡方分布。在我的下一篇文章中,我们将使用分布来解释卡方检验!
Connect With Me!
文章出处登录后可见!