Pandas 查看数据

在数据分析中，了解数据集的结构和内容是至关重要的。Pandas 提供了多种方法来查看和检查数据，帮助我们在处理数据之前对其有一个全面的了解。本文将介绍如何使用 Pandas 查看数据，包括查看数据的前几行、后几行、统计信息以及数据类型等。

1. 查看数据的前几行和后几行

在开始分析数据之前，我们通常需要快速浏览数据集的前几行或后几行，以了解数据的结构和内容。Pandas 提供了 head() 和 tail() 方法来实现这一目的。

1.1 使用 `head()` 查看前几行

head() 方法默认显示数据集的前5行。你可以通过传递一个整数参数来指定要显示的行数。

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)

# 查看前3行
print(df.head(3))

输出：

      Name  Age         City
  Alice   24     New York
    Bob   27  Los Angeles
Charlie   22      Chicago

1.2 使用 `tail()` 查看后几行

tail() 方法默认显示数据集的后5行。同样，你可以通过传递一个整数参数来指定要显示的行数。

# 查看后2行
print(df.tail(2))

输出：

    Name  Age     City
3  David   32  Houston
4    Eva   29  Phoenix

2. 查看数据的基本信息

除了查看数据的前几行和后几行，我们还可以通过 info() 方法查看数据的基本信息，包括数据的类型、非空值的数量等。

# 查看数据的基本信息
df.info()

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    5 non-null      object
 1   Age     5 non-null      int64 
 2   City    5 non-null      object
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes

提示

info() 方法非常有用，特别是在处理大型数据集时，它可以帮助你快速了解数据的结构和缺失值情况。

3. 查看数据的统计信息

Pandas 提供了 describe() 方法，用于生成数据的统计摘要。这对于数值型数据尤其有用，因为它会显示计数、均值、标准差、最小值、最大值等统计信息。

# 查看数据的统计信息
print(df.describe())

输出：

             Age
count   5.000000
mean   26.800000
std     4.147288
min    22.000000
25%    24.000000
50%    27.000000
75%    29.000000
max    32.000000

备注

describe() 方法默认只对数值型列进行统计。如果你想对所有列进行统计，可以传递 include='all' 参数。

4. 查看数据的形状

在数据分析中，了解数据集的形状（即行数和列数）是非常重要的。Pandas 提供了 shape 属性来获取数据集的形状。

# 查看数据的形状
print(df.shape)

输出：

(5, 3)

这表示数据集有5行和3列。

5. 查看数据的列名和索引

有时我们需要查看数据集的列名或索引。Pandas 提供了 columns 和 index 属性来实现这一目的。

# 查看列名
print(df.columns)

# 查看索引
print(df.index)

输出：

Index(['Name', 'Age', 'City'], dtype='object')
RangeIndex(start=0, stop=5, step=1)

6. 实际案例：查看真实数据集

让我们通过一个实际案例来应用这些方法。假设我们有一个包含学生成绩的数据集，我们可以使用上述方法来查看数据。

# 创建一个示例学生成绩数据集
data = {
    'Student': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Math': [85, 90, 78, 92, 88],
    'Science': [88, 85, 80, 91, 89],
    'English': [92, 88, 85, 90, 87]
}

df_students = pd.DataFrame(data)

# 查看前3行
print(df_students.head(3))

# 查看数据的基本信息
df_students.info()

# 查看数据的统计信息
print(df_students.describe())

# 查看数据的形状
print(df_students.shape)

输出：

   Student  Math  Science  English
0    Alice    85       88       92
1      Bob    90       85       88
2  Charlie    78       80       85

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Student  5 non-null      object
 1   Math     5 non-null      int64 
 2   Science  5 non-null      int64 
 3   English  5 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes

            Math    Science    English
count   5.000000   5.000000   5.000000
mean   86.600000  86.600000  88.400000
std     5.683309   4.393177   2.701851
min    78.000000  80.000000  85.000000
25%    85.000000  85.000000  87.000000
50%    88.000000  88.000000  88.000000
75%    90.000000  89.000000  90.000000
max    92.000000  91.000000  92.000000

(5, 4)

7. 总结

通过本文，我们学习了如何使用 Pandas 查看数据。我们介绍了如何查看数据的前几行和后几行、数据的基本信息、统计信息、形状、列名和索引等。这些方法在数据分析的初期阶段非常有用，可以帮助我们快速了解数据集的结构和内容。

8. 附加资源与练习

练习1：下载一个真实的数据集（如 Kaggle 上的数据集），并使用本文介绍的方法查看数据的前几行、后几行、基本信息、统计信息等。
练习2：尝试使用 describe(include='all') 查看所有列的统计信息，并解释输出结果。
附加资源：阅读 Pandas 官方文档中关于数据查看的更多方法。

警告

在处理大型数据集时，head() 和 tail() 方法可能会显示不完整的数据。确保在分析数据时使用适当的方法来查看数据的完整内容。

1. 查看数据的前几行和后几行​

1.1 使用 head() 查看前几行​

1.2 使用 tail() 查看后几行​

2. 查看数据的基本信息​

3. 查看数据的统计信息​

4. 查看数据的形状​

5. 查看数据的列名和索引​

6. 实际案例：查看真实数据集​

7. 总结​

8. 附加资源与练习​

1. 查看数据的前几行和后几行

1.1 使用 `head()` 查看前几行

1.2 使用 `tail()` 查看后几行

2. 查看数据的基本信息

3. 查看数据的统计信息

4. 查看数据的形状

5. 查看数据的列名和索引

6. 实际案例：查看真实数据集

7. 总结

8. 附加资源与练习