前言
本篇博客主要介绍一下方差、协方差及相关系数的相关知识,进而引入了协方差矩阵与相关系数矩阵,并结合相关实例进行说明。
1. 方差、协方差与相关系数
在《概率论与数理统计》中,方差用来度量单个随机变量的离散程度,记为,计算公式如下:
数学表达式为:
即
方差 = 平方的期望 - 期望的平方
协方差用来度量两个随机变量和间的相似程度,记为,计算公式为:
数学表达式为:
从公式上来看,协方差是两个变量与自身期望做差再相乘,然后对乘积取期望。也就是说,当其中一个变量的取值大于自身期望,另一个变量的取值也大于自身期望时,即两个变量的变化趋势相同,此时,两个变量之间的协方差取正值。反之,即其中一个变量大于自身期望时,另外一个变量小于自身期望,那么这两个变量之间的协方差取负值。
相关系数,也叫皮尔逊(Pearson)
相关系数,用来度量两个随机变量和间的相关程度,记为,计算公式为:
若,表示随机变量和呈正相关;
若,表示随机变量和呈负相关;
若,表示随机变量和不相关,即相互独立;
若,表示随机变量和呈线性相关;
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差,它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
2. 协方差矩阵
在实际场景中,我们在描述一个物体时,并不会单单从一个或两个维度去描述,比如说,在描述一个神经网络模型的性能时,需要从模型的大小,精度,推理时间等多个维度来衡量。在进行多维数据分析时,不同维度之间的相关程度就需要协方差矩阵(covariance matrix)
来描述,维度之间的两两相关程度就构成了协方差矩阵,而协方差矩阵主对角线上的元素即为每个维度上的数据方差。
协方差矩阵的表达式为:
3. 相关系数矩阵
顾名思义,就是由相关系数组成的矩阵(correlation matrix)
,也叫系数矩阵,矩阵中的每个元素的取值范围为[-1, 1]
。
相关系数矩阵的表达式为:
文章出处登录后可见!