相关性分析热力图(Python&Matlab代码实现)

目录


1 热力图

1.1 简介

利用热力图可以看数据表里多个特征两两的相似度。

seaborn.heatmap()热力图,常用于展示一组变量的相关系数矩阵,列联表的数据分布,通过热力图我们可以直观地看到所给数值大小的差异状况。

热力图,又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小,可以判断出变量之间相关性的大小。两个变量之间相关系数的计算公式为:

相关性分析热力图(Python&Matlab代码实现)

 公式中,ρ 表示相关系数,Cov表示协方差,E表示数学期望/均值

值得注意的是,该相关系数只能度量出变量之间的线性相关关系;也就是说,相关系数越高,则变量间的线性相关程度越高。对于相关系数小的两个变量,只能说明变量间的线性相关程度弱,但不能说明变量之间不存在其它的相关关系,如曲线关系等。
 

1.2 语法

seaborn.heatmap(data, *, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None, **kwargs)

========(1)热力图输入数据参数=======

data:指定绘制热力图的数据集,根据data传入的值画出热力图,一般是二维矩阵

========(2)热力图矩阵块颜色参数=======

vmin,vmax:用于指定图例中最小值与最大值的显示值

cmap:指定一个colormap对象,用于热力图的填充色

center:指定颜色中心值,通过该参数可以调整热力图的颜色深浅

robust:默认取值False;如果是False,且没设定vmin和vmax的值,热力图的颜色映射范围根据具有鲁棒性的分位数设定,而不是用极值设定

========(3)热力图矩阵块注释参数============

annot:指定一个bool类型的值或与data参数形状一样的数组,如果为True,就在热力图的每个单元上显示数值

fmt:指定单元格中数据的显示格式

annot_kws:有关单元格中数值标签的其他属性描述,如颜色、大小等

=========(4)热力图矩阵块之间间隔及间隔线参数==============

linewidths :指定每个单元格的边框宽度

linecolor:指定每个单元格的边框颜色

=========(5)热力图颜色刻度条参数==============

cbar:bool类型参数,是否用颜色条作为图例,默认为True

square:bool类型参数,是否使热力图的每个单元格为正方形,默认为False

cbar_kws:有关颜色条的其他属性描述

========(6)坐标轴=============

xticklabels,yticklabels:指定热力图x轴和y轴的刻度标签,如果为True,则分别以数据框的变量名和行名称作为刻度标签

mask:用于突出显示某些数据

ax:用于指定子图的位置

 2 算例1(Python代码实现)

2.1 算例

本算例来源于2022华夏杯大学生就业分析。

2.2 Python代码


'''=========导入相关库============='''
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']  #图片显示中文
plt.rcParams['axes.unicode_minus'] =False #减号unicode编码

#=====读取数据和数据预处理=============
shuju=pd.read_csv('数据.csv')
print(shuju)
shuju.isnull().sum()   #看下有没有缺失值:
print(shuju)
shuju.describe()  #查看数据描述

#=======绘制热图===============
plt.figure(figsize=(25,20))
sns.heatmap(shuju.corr() , annot=True)  #shuju.corr() :计算各变量之间的相关系数
# 设置刻度字体大小
plt.xticks(fontsize=9)
plt.yticks(fontsize=9)
plt.show()

2.3 运行结果

相关性分析热力图(Python&Matlab代码实现)

相关性分析热力图(Python&Matlab代码实现)

 3 算例2(Python代码实现)

下面这篇文章写得很棒,值得学习:

数据可视化之热力图&相关系数图(原理+Python代码)

4 算例3(Python代码实现)

4.1 算例

本题算例来源于2022华数杯比赛。

4.2 Python代码

'''======导入第三方库========'''
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题,负号正常显示

'''=======读取数据==========='''
data=pd.read_csv('热图分析.csv', encoding='gbk')
data.head()

corr = data.corr()     # shuju.corr() :计算各变量之间的相关系数,corr(method='pearson')默认方法选择person相关性,'spearman'秩相关。如果你想选择其它方法,请修改meathod参数。这里我们就用皮尔逊进行演示。
'''=====热图可视化============'''
plt.subplots(figsize=(9, 9))  # 设置画面大小
# annot=True,是显式热力图上的数值;vmax是显示最大值;xticklabels、yticklabels轴标签显示;square=True,将图变成一个正方形,默认是一个矩形;cmap="Blues"是一种模式,就是图颜色配置。
# mask:控制某个矩阵块是否显示出来,默认值是None,如果是布尔型的DataFrame,则将DataFrame里True的位置用白色覆盖掉
sns.heatmap(corr, annot=True, vmax=1, vmin=0, xticklabels=True, yticklabels=True, square=True, cmap="YlGnBu",
            linewidths=0.05, linecolor='y')  # mask=t < 0.8等价于mask=(t < 0.8)
plt.title('变量相关系数 - 热图\n', fontsize=18)  # 添加图表标题“变量相关系数 - 热图”,fontsize=18 字体大小 可省略
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()

4.3 运行结果

相关性分析热力图(Python&Matlab代码实现)

5 相关性分析(皮尔逊,肯德尔,斯皮尔曼) (Matlab代码实现)

这个博主总结得相当好,很有收获:

matlab相关性分析(皮尔逊,肯德尔,斯皮尔曼)

 

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年3月8日 下午10:01
下一篇 2023年3月8日

相关推荐