跳到主要内容

Pandas 基本操作

Pandas 是一个强大的 Python 数据分析库,广泛应用于数据清洗、处理和分析。它提供了高效的数据结构,如 DataFrameSeries,使得处理结构化数据变得非常简单。本文将介绍 Pandas 的基本操作,帮助你快速上手。

1. 安装与导入

在开始之前,确保你已经安装了 Pandas。如果没有安装,可以使用以下命令进行安装:

bash
pip install pandas

安装完成后,导入 Pandas 库:

python
import pandas as pd

2. 数据读取

Pandas 支持多种数据格式的读取,包括 CSV、Excel、SQL 等。以下是一个读取 CSV 文件的示例:

python
# 读取CSV文件
df = pd.read_csv('data.csv')
提示

你可以使用 pd.read_excel() 读取 Excel 文件,或者使用 pd.read_sql() 从数据库中读取数据。

3. 查看数据

读取数据后,通常需要查看数据的基本信息。以下是一些常用的方法:

  • 查看前几行数据
python
df.head()  # 默认显示前5行
  • 查看后几行数据
python
df.tail()  # 默认显示后5行
  • 查看数据的基本信息
python
df.info()  # 显示数据的列名、数据类型、非空值数量等
  • 查看数据的统计信息
python
df.describe()  # 显示数值列的统计信息,如均值、标准差等

4. 数据选择

Pandas 提供了多种方式来选择数据。以下是几种常见的选择方法:

  • 选择单列
python
df['column_name']  # 选择指定列
  • 选择多列
python
df[['column_name1', 'column_name2']]  # 选择多列
  • 选择行
python
df.loc[0]  # 选择第一行
df.iloc[0] # 使用索引选择第一行
  • 条件选择
python
df[df['column_name'] > 10]  # 选择列中值大于10的行

5. 数据修改

Pandas 允许你轻松地修改数据。以下是一些常见的操作:

  • 添加新列
python
df['new_column'] = df['column_name'] * 2  # 基于现有列创建新列
  • 修改列值
python
df['column_name'] = df['column_name'].apply(lambda x: x * 2)  # 对列中的每个值进行操作
  • 删除列
python
df.drop('column_name', axis=1, inplace=True)  # 删除指定列
警告

使用 inplace=True 会直接修改原数据,如果不希望修改原数据,可以省略此参数。

6. 实际案例

假设我们有一个包含学生成绩的 CSV 文件,文件内容如下:

学生ID姓名数学英语物理
1张三859088
2李四788285
3王五928890

我们可以使用 Pandas 进行以下操作:

  • 读取数据
python
df = pd.read_csv('grades.csv')
  • 计算每个学生的平均分
python
df['平均分'] = df[['数学', '英语', '物理']].mean(axis=1)
  • 筛选出平均分大于85的学生
python
high_achievers = df[df['平均分'] > 85]
  • 保存结果到新的CSV文件
python
high_achievers.to_csv('high_achievers.csv', index=False)

7. 总结

本文介绍了 Pandas 的基本操作,包括数据读取、查看、选择和修改等。通过这些操作,你可以轻松地处理和分析结构化数据。Pandas 的功能远不止于此,建议你继续深入学习,掌握更多高级功能。

8. 附加资源与练习

  • 官方文档: Pandas 官方文档
  • 练习: 尝试使用 Pandas 处理一个真实的数据集,如 Kaggle 上的公开数据集。
备注

如果你有任何问题或需要进一步的帮助,请随时在评论区留言。