【Python】进阶学习：pandas–describe()函数的使用介绍

🐍【Python】进阶学习：pandas——describe()函数的使用介绍

🌈 个人主页：高斯小哥
🔥 高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）

Table of Contents

🌵文章目录🌵

📊 一、初识`describe()`函数
📈 二、`describe()`函数的基本用法
🔍 三、定制`describe()`函数的输出
📊 四、`describe()`函数与数据可视化
💡 五、深入理解统计指标
📚 六、总结与进阶学习
🤝 七、期待与你共同进步

📊 一、初识`describe()`函数

在数据分析和处理的过程中，我们经常需要了解数据的基本统计信息，如均值、标准差、最小值、最大值等。pandas库中的describe()函数为我们提供了这样的功能，它可以快速生成数据集的描述性统计信息。

📈 二、`describe()`函数的基本用法

describe()函数是pandas库中DataFrame和Series对象的一个方法，它默认返回以下统计信息：

count：非空值的数量
mean：平均值
std：标准差
min：最小值
25%：第一四分位数（Q1）
50%：第二四分位数（中位数，Q2）
75%：第三四分位数（Q3）
max：最大值

使用示例：

import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 使用describe()函数
description = df.describe()
print(description)

输出：

              A         B          C
count  5.000000  5.000000   5.000000
mean   3.000000  3.000000  30.000000
std    1.581139  1.581139  15.811388
min    1.000000  1.000000  10.000000
25%    2.000000  2.000000  20.000000
50%    3.000000  3.000000  30.000000
75%    4.000000  4.000000  40.000000
max    5.000000  5.000000  50.000000

🔍 三、定制`describe()`函数的输出

describe()函数提供了多个参数，允许我们定制输出的统计信息。

percentiles：指定要包括的其他百分位数，例如percentiles=[.25, .5, .75]将返回第一、第二和第三四分位数。
include：指定要包括的数据类型，默认为'all'，可以设置为'all', 'nums', 或 'object'。
exclude：指定要排除的数据类型。

使用示例：

import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 使用describe()函数定制输出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)

输出：

              A         B          C
count  5.000000  5.000000   5.000000
mean   3.000000  3.000000  30.000000
std    1.581139  1.581139  15.811388
min    1.000000  1.000000  10.000000
30%    2.200000  2.200000  22.000000
50%    3.000000  3.000000  30.000000
60%    3.400000  3.400000  34.000000
90%    4.600000  4.600000  46.000000
max    5.000000  5.000000  50.000000

📊 四、`describe()`函数与数据可视化

describe()函数输出的统计信息经常与数据可视化结合使用，以更直观地了解数据的分布。例如，我们可以使用matplotlib库来绘制箱线图（boxplot）。

使用示例：

import pandas as pd
from matplotlib import pyplot as plt

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 使用describe()函数定制输出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)

# 绘制箱线图
df.boxplot()
plt.show()

效果展示：

💡 五、深入理解统计指标

了解describe()函数输出的统计指标对于正确解读数据至关重要。例如，标准差可以告诉我们数据集的离散程度，中位数则可以告诉我们数据集的中心趋势，而不受极端值的影响。

📚 六、总结与进阶学习

describe()函数是pandas库中非常实用的一个函数，它可以帮助我们快速了解数据集的基本统计信息。通过定制输出、结合数据可视化以及深入理解统计指标，我们可以更好地分析和处理数据。在进阶学习中，你还可以探索其他与describe()函数相关的统计方法和可视化工具，以提高你的数据处理和分析能力。

希望这篇博客能帮助你更好地理解和使用pandas中的describe()函数！🚀📈🔍

🤝 七、期待与你共同进步

🌱 亲爱的读者，非常感谢你每一次的停留和阅读！你的支持是我们前行的最大动力！🙏

🌐 在这茫茫网海中，有你的关注，我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖，都像是明灯一样照亮我们前行的道路，给予我们无比的鼓舞和力量。🌟

📚 我们会继续努力，为你呈现更多精彩和有深度的内容。同时，我们非常欢迎你在评论区留下你的宝贵意见和建议，让我们共同进步，共同成长！💬

💪 无论你在编程的道路上遇到什么困难，都希望你能坚持下去，因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章！ 🎉

🌈 最后，再次感谢你的厚爱与支持！愿你在编程的道路上越走越远，收获满满的成就和喜悦！祝你编程愉快！🎉

原文链接：https://blog.csdn.net/qq_41813454/article/details/136462028

【Python】进阶学习：pandas–describe()函数的使用介绍

🌵文章目录🌵

📊 一、初识describe()函数

📈 二、describe()函数的基本用法

🔍 三、定制describe()函数的输出

📊 四、describe()函数与数据可视化

💡 五、深入理解统计指标

📚 六、总结与进阶学习

🤝 七、期待与你共同进步

相关推荐

📊 一、初识`describe()`函数

📈 二、`describe()`函数的基本用法

🔍 三、定制`describe()`函数的输出

📊 四、`describe()`函数与数据可视化