Pandas 基本操作
Pandas 是一个强大的 Python 数据分析库,广泛应用于数据清洗、处理和分析。它提供了高效的数据结构,如 DataFrame
和 Series
,使得处理结构化数据变得非常简单。本文将介绍 Pandas 的基本操作,帮助你快速上手。
1. 安装与导入
在开始之前,确保你已经安装了 Pandas。如果没有安装,可以使用以下命令进行安装:
bash
pip install pandas
安装完成后,导入 Pandas 库:
python
import pandas as pd
2. 数据读取
Pandas 支持多种数据格式的读取,包括 CSV、Excel、SQL 等。以下是一个读取 CSV 文件的示例:
python
# 读取CSV文件
df = pd.read_csv('data.csv')
提示
你可以使用 pd.read_excel()
读取 Excel 文件,或者使用 pd.read_sql()
从数据库中读取数据。
3. 查看数据
读取数据后,通常需要查看数据的基本信息。以下是一些常用的方法:
- 查看前几行数据:
python
df.head() # 默认显示前5行
- 查看后几行数据:
python
df.tail() # 默认显示后5行
- 查看数据的基本信息:
python
df.info() # 显示数据的列名、数据类型、非空值数量等
- 查看数据的统计信息:
python
df.describe() # 显示数值列的统计信息,如均值、标准差等
4. 数据选择
Pandas 提供了多种方式来选择数据。以下是几种常见的选择方法:
- 选择单列:
python
df['column_name'] # 选择指定列
- 选择多列:
python
df[['column_name1', 'column_name2']] # 选择多列
- 选择行:
python
df.loc[0] # 选择第一行
df.iloc[0] # 使用索引选择第一行
- 条件选择:
python
df[df['column_name'] > 10] # 选择列中值大于10的行
5. 数据修改
Pandas 允许你轻松地修改数据。以下是一些常见的操作:
- 添加新列:
python
df['new_column'] = df['column_name'] * 2 # 基于现有列创建新列
- 修改列值:
python
df['column_name'] = df['column_name'].apply(lambda x: x * 2) # 对列中的每个值进行操作
- 删除列:
python
df.drop('column_name', axis=1, inplace=True) # 删除指定列
警告
使用 inplace=True
会直接修改原数据,如果不希望修改原数据,可以省略此参数。
6. 实际案例
假设我们有一个包含学生成绩的 CSV 文件,文件内容如下:
学生ID | 姓名 | 数学 | 英语 | 物理 |
---|---|---|---|---|
1 | 张三 | 85 | 90 | 88 |
2 | 李四 | 78 | 82 | 85 |
3 | 王五 | 92 | 88 | 90 |
我们可以使用 Pandas 进行以下操作:
- 读取数据:
python
df = pd.read_csv('grades.csv')
- 计算每个学生的平均分:
python
df['平均分'] = df[['数学', '英语', '物理']].mean(axis=1)
- 筛选出平均分大于85的学生:
python
high_achievers = df[df['平均分'] > 85]
- 保存结果到新的CSV文件:
python
high_achievers.to_csv('high_achievers.csv', index=False)
7. 总结
本文介绍了 Pandas 的基本操作,包括数据读取、查看、选择和修改等。通过这些操作,你可以轻松地处理和分析结构化数据。Pandas 的功能远不止于此,建议你继续深入学习,掌握更多高级功能。
8. 附加资源与练习
- 官方文档: Pandas 官方文档
- 练习: 尝试使用 Pandas 处理一个真实的数据集,如 Kaggle 上的公开数据集。
备注
如果你有任何问题或需要进一步的帮助,请随时在评论区留言。