Pandas 基础统计
Pandas 是一个强大的 Python 数据分析库,广泛应用于数据处理和分析任务。在数据分析中,统计是一个非常重要的部分。Pandas 提供了许多内置函数,可以帮助我们快速计算数据的统计特征。本文将介绍如何使用 Pandas 进行基础统计分析。
1. 描述性统计
描述性统计是对数据集的基本特征进行总结的过程。Pandas 提供了 describe()
函数,可以快速生成描述性统计信息。
示例:使用 describe()
函数
python
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)
# 使用describe()函数
print(df.describe())
输出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 30.000000 300.000000
std 1.581139 15.811388 158.113883
min 1.000000 10.000000 100.000000
25% 2.000000 20.000000 200.000000
50% 3.000000 30.000000 300.000000
75% 4.000000 40.000000 400.000000
max 5.000000 50.000000 500.000000
备注
describe()
函数默认只对数值型列进行统计。如果数据中包含非数值型列,可以使用 include='all'
参数来包含所有列。
2. 数据聚合
数据聚合是指将数据集中的多个值合并为一个单一的值。Pandas 提供了多种聚合函数,如 sum()
、mean()
、median()
、min()
、max()
等。
示例:使用聚合函数
python
# 计算每列的总和
print(df.sum())
# 计算每列的平均值
print(df.mean())
# 计算每列的中位数
print(df.median())
输出:
A 15
B 150
C 1500
dtype: int64
A 3.0
B 30.0
C 300.0
dtype: float64
A 3.0
B 30.0
C 300.0
dtype: float64
提示
你可以使用 groupby()
函数对数据进行分组,然后对每个组应用聚合函数。
3. 常用统计方法
Pandas 还提供了许多其他常用的统计方法,如 std()
(标准差)、var()
(方差)、corr()
(相关性)等。
示例:计算标准差和相关性
python
# 计算每列的标准差
print(df.std())
# 计算列之间的相关性
print(df.corr())
输出:
A 1.581139
B 15.811388
C 158.113883
dtype: float64
A B C
A 1.0 1.0 1.0
B 1.0 1.0 1.0
C 1.0 1.0 1.0
警告
相关性矩阵中的值范围在 -1 到 1 之间。1 表示完全正相关,-1 表示完全负相关,0 表示无相关性。
4. 实际案例
假设你有一个包含学生成绩的数据集,你想要分析学生的平均成绩、最高成绩和最低成绩。
示例:分析学生成绩
python
# 创建学生成绩DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Math': [85, 90, 78, 92, 88],
'Science': [88, 85, 90, 87, 89],
'English': [92, 88, 85, 90, 87]
}
df = pd.DataFrame(data)
# 计算每科的平均成绩
print(df[['Math', 'Science', 'English']].mean())
# 计算每科的最高成绩
print(df[['Math', 'Science', 'English']].max())
# 计算每科的最低成绩
print(df[['Math', 'Science', 'English']].min())
输出:
Math 86.6
Science 87.8
English 88.4
dtype: float64
Math 92
Science 90
English 92
dtype: int64
Math 78
Science 85
English 85
dtype: int64
5. 总结
通过本文,我们学习了如何使用 Pandas 进行基础统计分析。我们介绍了描述性统计、数据聚合和常用统计方法,并通过实际案例展示了这些方法的应用。掌握这些基础统计方法,将有助于你更好地理解和分析数据。
6. 附加资源与练习
- 练习 1:创建一个包含 10 行数据的 DataFrame,计算每列的平均值和标准差。
- 练习 2:使用
groupby()
函数对数据进行分组,并计算每个组的平均值。 - 附加资源:阅读 Pandas 官方文档 了解更多高级统计方法。
注意
在练习时,确保你理解每个函数的输出含义,并尝试修改代码以观察不同的结果。