主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息
需要了解具体细节可看此视频👉:什么是主成成分分析PCA
计算步骤
假设有 个样本, 个特征,则可构成大小为 的样本矩阵
-
以列为单位,计算各列的均值 和标准差 ,其中
-
标准化原样本矩阵 ,标准化样本矩阵为 ,标准化后
-
计算标准化样本的协方差矩阵 【方阵】
协方差矩阵求法在线性判别分析LDA中有细致讲解,此处不再赘述
-
计算 的特征值和特征矩阵【参考考研数学线性代数部分】
是半正定矩阵,特征值 有如下👇性质
-
计算主成分贡献率 以及累计贡献率
-
写出主成分,第 个主成分记作
一般取累计贡献率超过 的特征值所对应的第一、第二、 、第 个主成分
其中 是特征向量【竖直】, 代表第 个特征向量的第 个元素 -
根据系数分析主成分代表的意义
对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大
例题
假设有 个学生参加四门课程的考试,将学生们的考试成绩看作随机变量的取值,对考试成绩数据进行标准化处理,得到样本相关矩阵 ,如下表所示👇:
文章出处登录后可见!
已经登录?立即刷新