Pandas 数据采样

在数据分析中，数据采样是一种常见的技术，用于从大数据集中提取一部分数据进行分析。Pandas提供了多种采样方法，帮助我们从数据集中随机或按特定规则抽取样本。本文将详细介绍Pandas中的数据采样方法，并通过实际案例展示其应用。

什么是数据采样？

数据采样是从数据集中抽取一部分数据的过程。采样的目的是在不影响分析结果的前提下，减少数据量，提高分析效率。常见的采样方法包括随机采样、分层采样等。

随机采样

随机采样是最常见的采样方法，它从数据集中随机抽取一定数量的样本。Pandas提供了sample()方法来实现随机采样。

基本用法

import pandas as pd

# 创建一个示例DataFrame
data = {
    'A': range(1, 11),
    'B': range(11, 21)
}
df = pd.DataFrame(data)

# 随机抽取3行数据
sampled_df = df.sample(n=3)
print(sampled_df)

输出：

按比例采样

除了指定采样数量，还可以按比例进行采样。例如，抽取20%的数据：

sampled_df = df.sample(frac=0.2)
print(sampled_df)

输出：

   A   B
4  5  15
8  9  19

提示

使用random_state参数可以确保每次采样的结果一致，便于复现实验结果。

分层采样

分层采样是一种更复杂的采样方法，它根据某个特征将数据集分成若干层，然后从每一层中抽取样本。这种方法可以确保样本的分布与原始数据集一致。

示例

假设我们有一个包含性别和年龄的数据集，我们希望按性别进行分层采样：

from sklearn.model_selection import train_test_split

# 创建一个示例DataFrame
data = {
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Male', 'Female'],
    'Age': [25, 30, 22, 35, 28, 40]
}
df = pd.DataFrame(data)

# 按性别进行分层采样
train_df, test_df = train_test_split(df, test_size=0.33, stratify=df['Gender'])
print(train_df)
print(test_df)

输出：

   Gender  Age
Female   30
  Male   28
Female   40
  Male   25
   Gender  Age
  Male   22
Female   35

备注

分层采样通常用于分类问题中，确保训练集和测试集的类别分布一致。

实际案例：电商用户行为分析

假设我们有一个电商平台的用户行为数据集，包含用户ID、行为类型（浏览、购买等）和时间戳。我们希望从中抽取一部分数据进行分析。

数据集

data = {
    'UserID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Action': ['view', 'purchase', 'view', 'view', 'purchase', 'view', 'view', 'purchase', 'view', 'view'],
    'Timestamp': pd.date_range(start='2023-01-01', periods=10, freq='D')
}
df = pd.DataFrame(data)

随机采样

我们可以随机抽取30%的数据进行分析：

sampled_df = df.sample(frac=0.3)
print(sampled_df)

输出：

   UserID    Action  Timestamp
     3      view 2023-01-03
     8  purchase 2023-01-08
    10      view 2023-01-10

分层采样

如果我们希望按行为类型进行分层采样，可以使用train_test_split：

train_df, test_df = train_test_split(df, test_size=0.3, stratify=df['Action'])
print(train_df)
print(test_df)

输出：

   UserID    Action  Timestamp
     2  purchase 2023-01-02
     5  purchase 2023-01-05
     8  purchase 2023-01-08
     1      view 2023-01-01
     3      view 2023-01-03
     4      view 2023-01-04
     6      view 2023-01-06
     7      view 2023-01-07
    10      view 2023-01-10
   UserID Action  Timestamp
     9   view 2023-01-09

总结

数据采样是数据分析中的重要步骤，Pandas提供了多种采样方法，包括随机采样和分层采样。通过合理使用这些方法，我们可以从大数据集中提取有代表性的样本，提高分析效率。

附加资源

练习

使用sample()方法从一个包含1000行数据的DataFrame中随机抽取10%的数据。
创建一个包含性别和收入的数据集，按性别进行分层采样，确保训练集和测试集的性别分布一致。
在实际项目中，尝试使用分层采样来划分训练集和测试集，并观察模型性能的变化。

通过以上练习，你将更深入地理解Pandas数据采样的应用场景和技巧。

什么是数据采样？​

随机采样​

基本用法​

按比例采样​

分层采样​

示例​

实际案例：电商用户行为分析​

数据集​

随机采样​

分层采样​

总结​

附加资源​

练习​

什么是数据采样？

随机采样

基本用法

按比例采样

分层采样

示例

实际案例：电商用户行为分析

数据集

随机采样

分层采样

总结

附加资源

练习