跳到主要内容

Pandas 简介

Pandas 是一个开源的 Python 库,专门用于数据操作和分析。它提供了高效的数据结构,如 DataFrameSeries,使得处理结构化数据变得简单而直观。无论你是处理 CSV 文件、Excel 表格,还是从数据库中提取数据,Pandas 都能帮助你轻松完成。

为什么选择 Pandas?

Pandas 的主要优势在于它能够处理各种类型的数据,并提供强大的数据操作功能。以下是 Pandas 的一些关键特性:

  • 数据清洗:处理缺失数据、重复数据等。
  • 数据转换:对数据进行排序、过滤、分组等操作。
  • 数据分析:计算统计量、生成汇总报告等。
  • 数据可视化:与 Matplotlib 等库集成,轻松生成图表。

安装 Pandas

在开始使用 Pandas 之前,你需要先安装它。你可以使用以下命令通过 pip 安装 Pandas:

bash
pip install pandas

Pandas 的核心数据结构

Pandas 提供了两种主要的数据结构:SeriesDataFrame

Series

Series 是一个一维数组,可以存储任何数据类型。它类似于 Python 中的列表,但提供了更多的功能。

python
import pandas as pd

# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

输出:

0    1
1 3
2 5
3 7
4 9
dtype: int64

DataFrame

DataFrame 是一个二维表格数据结构,类似于 Excel 表格或 SQL 表。它由多个 Series 组成,每个 Series 代表一列。

python
# 创建一个 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

输出:

      Name  Age         City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago

实际案例:分析学生成绩

假设你有一份学生成绩的 CSV 文件,内容如下:

Name,Math,Science,English
Alice,85,90,88
Bob,78,85,92
Charlie,92,88,85

你可以使用 Pandas 来加载和分析这些数据:

python
# 读取 CSV 文件
df = pd.read_csv('student_grades.csv')

# 查看前几行数据
print(df.head())

# 计算每门课的平均成绩
average_grades = df.mean()
print(average_grades)

输出:

      Name  Math  Science  English
0 Alice 85 90 88
1 Bob 78 85 92
2 Charlie 92 88 85

Math 85.0
Science 87.666667
English 88.333333
dtype: float64

总结

Pandas 是 Python 中用于数据处理和分析的强大工具。通过 SeriesDataFrame,你可以轻松地处理各种类型的数据,并进行复杂的操作和分析。无论是数据清洗、转换还是可视化,Pandas 都能帮助你高效完成任务。

附加资源

练习

  1. 创建一个包含你朋友姓名、年龄和城市的 DataFrame,并打印出来。
  2. 从 CSV 文件中读取数据,并计算每列的平均值。
  3. 尝试使用 Pandas 对数据进行排序和过滤。
提示

如果你在练习中遇到问题,可以参考 Pandas 官方文档或在线教程,它们提供了丰富的示例和解释。