跳到主要内容

Pandas CSV文件处理

CSV(Comma-Separated Values)文件是一种常见的数据存储格式,广泛用于数据交换和存储。Pandas 是一个强大的 Python 数据处理库,提供了简单易用的工具来处理 CSV 文件。本文将介绍如何使用 Pandas 读取、处理和保存 CSV 文件。

1. 读取CSV文件

Pandas 提供了 read_csv() 函数来读取 CSV 文件。这个函数非常灵活,可以处理各种格式的 CSV 文件。

基本用法

python
import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

# 显示前5行数据
print(df.head())

参数说明

  • filepath_or_buffer: CSV 文件的路径或 URL。
  • sep: 分隔符,默认为逗号 ,
  • header: 指定哪一行作为列名,默认为 0(第一行)。
  • index_col: 指定哪一列作为索引。
  • na_values: 指定哪些值应被视为缺失值。

示例

假设我们有一个名为 data.csv 的文件,内容如下:

csv
Name,Age,City
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago

我们可以使用以下代码读取并显示数据:

python
df = pd.read_csv('data.csv')
print(df)

输出:

      Name  Age         City
0 Alice 30 New York
1 Bob 25 Los Angeles
2 Charlie 35 Chicago

2. 处理CSV数据

读取 CSV 文件后,我们可以对数据进行各种操作,如筛选、排序、分组等。

筛选数据

python
# 筛选年龄大于30的行
filtered_df = df[df['Age'] > 30]
print(filtered_df)

输出:

      Name  Age     City
2 Charlie 35 Chicago

排序数据

python
# 按年龄升序排序
sorted_df = df.sort_values(by='Age')
print(sorted_df)

输出:

      Name  Age         City
1 Bob 25 Los Angeles
0 Alice 30 New York
2 Charlie 35 Chicago

分组数据

python
# 按城市分组并计算平均年龄
grouped_df = df.groupby('City')['Age'].mean()
print(grouped_df)

输出:

City
Chicago 35.0
Los Angeles 25.0
New York 30.0
Name: Age, dtype: float64

3. 保存CSV文件

处理完数据后,我们可以使用 to_csv() 函数将数据保存为 CSV 文件。

基本用法

python
# 保存DataFrame为CSV文件
df.to_csv('output.csv', index=False)

参数说明

  • path_or_buf: 输出文件的路径。
  • index: 是否保存索引,默认为 True
  • sep: 分隔符,默认为逗号 ,
  • header: 是否保存列名,默认为 True

示例

python
df.to_csv('output.csv', index=False)

这将在当前目录下生成一个名为 output.csv 的文件,内容与 data.csv 相同。

4. 实际案例

假设我们有一个销售数据的 CSV 文件 sales.csv,内容如下:

csv
Date,Product,Quantity,Price
2023-01-01,Apple,10,1.5
2023-01-01,Banana,5,0.75
2023-01-02,Apple,15,1.5
2023-01-02,Banana,10,0.75

我们可以使用 Pandas 计算每日的总销售额:

python
df = pd.read_csv('sales.csv')
df['Total'] = df['Quantity'] * df['Price']
daily_sales = df.groupby('Date')['Total'].sum()
print(daily_sales)

输出:

Date
2023-01-01 18.75
2023-01-02 30.00
Name: Total, dtype: float64

5. 总结

本文介绍了如何使用 Pandas 读取、处理和保存 CSV 文件。我们学习了 read_csv()to_csv() 函数的基本用法,并通过实际案例展示了如何处理和分析 CSV 数据。

提示

Pandas 提供了丰富的功能来处理各种数据格式。掌握 CSV 文件处理是数据分析和处理的基础。

6. 附加资源与练习

  • 练习 1: 下载一个公开的 CSV 数据集(如 Kaggle 上的数据集),使用 Pandas 读取并分析数据。
  • 练习 2: 尝试使用不同的参数(如 sep, header, index_col 等)读取 CSV 文件,观察结果的变化。
  • 附加资源: 阅读 Pandas 官方文档 了解更多高级用法。

通过不断练习和探索,你将能够熟练使用 Pandas 处理各种数据任务。