跳到主要内容

Pandas 查看数据

在数据分析中,了解数据集的结构和内容是至关重要的。Pandas 提供了多种方法来查看和检查数据,帮助我们在处理数据之前对其有一个全面的了解。本文将介绍如何使用 Pandas 查看数据,包括查看数据的前几行、后几行、统计信息以及数据类型等。

1. 查看数据的前几行和后几行

在开始分析数据之前,我们通常需要快速浏览数据集的前几行或后几行,以了解数据的结构和内容。Pandas 提供了 head()tail() 方法来实现这一目的。

1.1 使用 head() 查看前几行

head() 方法默认显示数据集的前5行。你可以通过传递一个整数参数来指定要显示的行数。

python
import pandas as pd

# 创建一个示例 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Age': [24, 27, 22, 32, 29],
'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)

# 查看前3行
print(df.head(3))

输出:

      Name  Age         City
0 Alice 24 New York
1 Bob 27 Los Angeles
2 Charlie 22 Chicago

1.2 使用 tail() 查看后几行

tail() 方法默认显示数据集的后5行。同样,你可以通过传递一个整数参数来指定要显示的行数。

python
# 查看后2行
print(df.tail(2))

输出:

    Name  Age     City
3 David 32 Houston
4 Eva 29 Phoenix

2. 查看数据的基本信息

除了查看数据的前几行和后几行,我们还可以通过 info() 方法查看数据的基本信息,包括数据的类型、非空值的数量等。

python
# 查看数据的基本信息
df.info()

输出:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 5 non-null object
1 Age 5 non-null int64
2 City 5 non-null object
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes
提示

info() 方法非常有用,特别是在处理大型数据集时,它可以帮助你快速了解数据的结构和缺失值情况。

3. 查看数据的统计信息

Pandas 提供了 describe() 方法,用于生成数据的统计摘要。这对于数值型数据尤其有用,因为它会显示计数、均值、标准差、最小值、最大值等统计信息。

python
# 查看数据的统计信息
print(df.describe())

输出:

             Age
count 5.000000
mean 26.800000
std 4.147288
min 22.000000
25% 24.000000
50% 27.000000
75% 29.000000
max 32.000000
备注

describe() 方法默认只对数值型列进行统计。如果你想对所有列进行统计,可以传递 include='all' 参数。

4. 查看数据的形状

在数据分析中,了解数据集的形状(即行数和列数)是非常重要的。Pandas 提供了 shape 属性来获取数据集的形状。

python
# 查看数据的形状
print(df.shape)

输出:

(5, 3)

这表示数据集有5行和3列。

5. 查看数据的列名和索引

有时我们需要查看数据集的列名或索引。Pandas 提供了 columnsindex 属性来实现这一目的。

python
# 查看列名
print(df.columns)

# 查看索引
print(df.index)

输出:

Index(['Name', 'Age', 'City'], dtype='object')
RangeIndex(start=0, stop=5, step=1)

6. 实际案例:查看真实数据集

让我们通过一个实际案例来应用这些方法。假设我们有一个包含学生成绩的数据集,我们可以使用上述方法来查看数据。

python
# 创建一个示例学生成绩数据集
data = {
'Student': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Math': [85, 90, 78, 92, 88],
'Science': [88, 85, 80, 91, 89],
'English': [92, 88, 85, 90, 87]
}

df_students = pd.DataFrame(data)

# 查看前3行
print(df_students.head(3))

# 查看数据的基本信息
df_students.info()

# 查看数据的统计信息
print(df_students.describe())

# 查看数据的形状
print(df_students.shape)

输出:

   Student  Math  Science  English
0 Alice 85 88 92
1 Bob 90 85 88
2 Charlie 78 80 85

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Student 5 non-null object
1 Math 5 non-null int64
2 Science 5 non-null int64
3 English 5 non-null int64
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes

Math Science English
count 5.000000 5.000000 5.000000
mean 86.600000 86.600000 88.400000
std 5.683309 4.393177 2.701851
min 78.000000 80.000000 85.000000
25% 85.000000 85.000000 87.000000
50% 88.000000 88.000000 88.000000
75% 90.000000 89.000000 90.000000
max 92.000000 91.000000 92.000000

(5, 4)

7. 总结

通过本文,我们学习了如何使用 Pandas 查看数据。我们介绍了如何查看数据的前几行和后几行、数据的基本信息、统计信息、形状、列名和索引等。这些方法在数据分析的初期阶段非常有用,可以帮助我们快速了解数据集的结构和内容。

8. 附加资源与练习

  • 练习1:下载一个真实的数据集(如 Kaggle 上的数据集),并使用本文介绍的方法查看数据的前几行、后几行、基本信息、统计信息等。
  • 练习2:尝试使用 describe(include='all') 查看所有列的统计信息,并解释输出结果。
  • 附加资源:阅读 Pandas 官方文档 中关于数据查看的更多方法。
警告

在处理大型数据集时,head()tail() 方法可能会显示不完整的数据。确保在分析数据时使用适当的方法来查看数据的完整内容。