箱线图(boxplot)

1.箱线图的概念

箱线图是用来表示一组或多组连续型数据分布的中心位置散布范围的图形,因形似箱子故取名为箱线图。

2.如何看箱线图

箱线图理解的三要素:

 

箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平

 箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。

箱子的高度在一定程度上反映了数据的波动程度

在箱子的上方和下方,各有一条线。代表最大最小值,有时候会有一些点“冒出去”,可以理解成”异常值”

3.案例

eg1. 

下图是不同地区数据分析师的薪酬统计情况

eg2.假设A,B,C为三位运动员,需要选一位去参加比赛

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
data=pd.DataFrame({
    "A":[6,6,4,8,9,4,6,3,9,10],
    "B":[8,10,10,9,9,9,9,9,8,8],
    "C":[1,4,5,5,5,8,10,10,10,10]
})
data.plot.box()
plt.grid()#设置网格线

 

 

 AC的高度较高,说明成绩浮动较大,不稳定
B中的上四分卫和下四分卫距离特别近,说明其数据较为集中,说明B较为稳定
B是我们所需要的运动员

需要更多案例理解可以上这里

 https://zhuanlan.zhihu.com/p/426798602

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年5月7日
下一篇 2023年5月7日

相关推荐