Pandas 基本操作

Pandas 是一个强大的 Python 数据分析库，广泛应用于数据清洗、处理和分析。它提供了高效的数据结构，如 DataFrame 和 Series，使得处理结构化数据变得非常简单。本文将介绍 Pandas 的基本操作，帮助你快速上手。

1. 安装与导入

在开始之前，确保你已经安装了 Pandas。如果没有安装，可以使用以下命令进行安装：

pip install pandas

安装完成后，导入 Pandas 库：

import pandas as pd

2. 数据读取

Pandas 支持多种数据格式的读取，包括 CSV、Excel、SQL 等。以下是一个读取 CSV 文件的示例：

# 读取CSV文件
df = pd.read_csv('data.csv')

提示

你可以使用 pd.read_excel() 读取 Excel 文件，或者使用 pd.read_sql() 从数据库中读取数据。

3. 查看数据

读取数据后，通常需要查看数据的基本信息。以下是一些常用的方法：

查看前几行数据：

df.head()  # 默认显示前5行

查看后几行数据：

df.tail()  # 默认显示后5行

查看数据的基本信息：

df.info()  # 显示数据的列名、数据类型、非空值数量等

查看数据的统计信息：

df.describe()  # 显示数值列的统计信息，如均值、标准差等

4. 数据选择

Pandas 提供了多种方式来选择数据。以下是几种常见的选择方法：

选择单列：

df['column_name']  # 选择指定列

选择多列：

df[['column_name1', 'column_name2']]  # 选择多列

选择行：

df.loc[0]  # 选择第一行
df.iloc[0]  # 使用索引选择第一行

条件选择：

df[df['column_name'] > 10]  # 选择列中值大于10的行

5. 数据修改

Pandas 允许你轻松地修改数据。以下是一些常见的操作：

添加新列：

df['new_column'] = df['column_name'] * 2  # 基于现有列创建新列

修改列值：

df['column_name'] = df['column_name'].apply(lambda x: x * 2)  # 对列中的每个值进行操作

删除列：

df.drop('column_name', axis=1, inplace=True)  # 删除指定列

警告

使用 inplace=True 会直接修改原数据，如果不希望修改原数据，可以省略此参数。

6. 实际案例

假设我们有一个包含学生成绩的 CSV 文件，文件内容如下：

学生ID	姓名	数学	英语	物理
1	张三	85	90	88
2	李四	78	82	85
3	王五	92	88	90

我们可以使用 Pandas 进行以下操作：

读取数据：

df = pd.read_csv('grades.csv')

计算每个学生的平均分：

df['平均分'] = df[['数学', '英语', '物理']].mean(axis=1)

筛选出平均分大于85的学生：

high_achievers = df[df['平均分'] > 85]

保存结果到新的CSV文件：

high_achievers.to_csv('high_achievers.csv', index=False)

7. 总结

本文介绍了 Pandas 的基本操作，包括数据读取、查看、选择和修改等。通过这些操作，你可以轻松地处理和分析结构化数据。Pandas 的功能远不止于此，建议你继续深入学习，掌握更多高级功能。

8. 附加资源与练习

官方文档: Pandas 官方文档
练习: 尝试使用 Pandas 处理一个真实的数据集，如 Kaggle 上的公开数据集。

备注

如果你有任何问题或需要进一步的帮助，请随时在评论区留言。

1. 安装与导入​

2. 数据读取​

3. 查看数据​

4. 数据选择​

5. 数据修改​

6. 实际案例​

7. 总结​

8. 附加资源与练习​