Pandas 数据压缩

在处理大规模数据集时，内存使用和性能优化是至关重要的。Pandas 提供了多种方法来压缩数据，从而减少内存占用并提高处理效率。本文将介绍 Pandas 中的数据压缩技术，并通过实际案例展示如何应用这些技术。

什么是数据压缩？

数据压缩是指通过减少数据占用的存储空间来优化内存使用。在 Pandas 中，数据压缩通常通过改变数据类型来实现。例如，将浮点数从 float64 转换为 float32，或者将整数从 int64 转换为 int8，可以显著减少内存使用。

为什么需要数据压缩？

减少内存占用：压缩数据可以显著减少内存使用，尤其是在处理大规模数据集时。
提高性能：减少内存占用可以加快数据处理速度，因为更少的数据需要被加载和操作。
降低成本：在云环境中，减少内存使用可以降低计算资源的成本。

如何压缩 Pandas 数据

1. 检查数据类型

首先，我们需要检查当前数据框中的数据类型。可以使用 df.info() 方法来查看每列的数据类型和内存使用情况。

import pandas as pd

# 创建一个示例数据框
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [1.1, 2.2, 3.3, 4.4, 5.5],
    'C': ['a', 'b', 'c', 'd', 'e']
}
df = pd.DataFrame(data)

# 查看数据类型和内存使用情况
df.info()

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      int64  
 1   B       5 non-null      float64
 2   C       5 non-null      object 
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes

2. 转换数据类型

接下来，我们可以将数据类型转换为更节省内存的类型。例如，将 int64 转换为 int8，将 float64 转换为 float32。

# 转换数据类型
df['A'] = df['A'].astype('int8')
df['B'] = df['B'].astype('float32')

# 再次查看数据类型和内存使用情况
df.info()

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       5 non-null      int8   
 1   B       5 non-null      float32
 2   C       5 non-null      object 
dtypes: float32(1), int8(1), object(1)
memory usage: 158.0+ bytes

可以看到，内存使用从 248.0+ 字节减少到了 158.0+ 字节。

3. 使用分类数据类型

对于包含重复值的字符串列，可以使用 category 数据类型来进一步压缩数据。

# 将字符串列转换为分类数据类型
df['C'] = df['C'].astype('category')

# 再次查看数据类型和内存使用情况
df.info()

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   A       5 non-null      int8    
 1   B       5 non-null      float32 
 2   C       5 non-null      category
dtypes: category(1), float32(1), int8(1)
memory usage: 138.0+ bytes

内存使用进一步减少到了 138.0+ 字节。

实际案例

假设我们有一个包含 100 万行数据的数据框，其中包含整数、浮点数和字符串列。我们可以通过以下步骤来压缩数据：

import pandas as pd
import numpy as np

# 创建一个包含 100 万行数据的示例数据框
data = {
    'A': np.random.randint(0, 100, size=1000000),
    'B': np.random.rand(1000000),
    'C': np.random.choice(['a', 'b', 'c', 'd', 'e'], size=1000000)
}
df = pd.DataFrame(data)

# 查看原始内存使用情况
df.info(memory_usage='deep')

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype  
---  ------  --------------    -----  
 0   A       1000000 non-null  int64  
 1   B       1000000 non-null  float64
 2   C       1000000 non-null  object 
dtypes: float64(1), int64(1), object(1)
memory usage: 61.0 MB

接下来，我们进行数据压缩：

# 转换数据类型
df['A'] = df['A'].astype('int8')
df['B'] = df['B'].astype('float32')
df['C'] = df['C'].astype('category')

# 查看压缩后的内存使用情况
df.info(memory_usage='deep')

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype   
---  ------  --------------    -----   
 0   A       1000000 non-null  int8    
 1   B       1000000 non-null  float32 
 2   C       1000000 non-null  category
dtypes: category(1), float32(1), int8(1)
memory usage: 11.4 MB

可以看到，内存使用从 61.0 MB 减少到了 11.4 MB，压缩效果非常显著。

总结

通过转换数据类型和使用分类数据类型，我们可以显著减少 Pandas 数据框的内存使用。这对于处理大规模数据集时尤为重要，不仅可以提高性能，还可以降低计算资源的成本。

提示

在实际应用中，建议在处理数据之前先检查数据类型，并根据需要选择合适的压缩策略。

附加资源

练习

创建一个包含 100 万行数据的数据框，尝试使用不同的数据类型压缩数据，并比较内存使用情况。
在实际项目中应用数据压缩技术，观察性能提升效果。

希望本文能帮助你更好地理解 Pandas 中的数据压缩技术，并在实际项目中应用这些技术来优化性能。

什么是数据压缩？​

为什么需要数据压缩？​

如何压缩 Pandas 数据​

1. 检查数据类型​

2. 转换数据类型​

3. 使用分类数据类型​

实际案例​

总结​

附加资源​

练习​