Pandas 分类数据类型

介绍

在Pandas中，分类数据类型（Categorical Data Type）是一种用于处理有限且固定数量的唯一值（如性别、星期几、产品类别等）的数据类型。与普通的字符串或整数类型相比，分类数据类型在内存使用和性能上有显著优势，特别是在处理大规模数据集时。

分类数据类型将数据存储为整数编码，并在内部维护一个映射表，将每个唯一值映射到一个整数。这种方式不仅节省内存，还能加快某些操作的速度，如排序和分组。

创建分类数据

我们可以使用 pd.Categorical 或 astype('category') 来创建分类数据。以下是一个简单的示例：

import pandas as pd

# 创建一个包含分类数据的Series
data = pd.Series(['red', 'blue', 'green', 'red', 'blue'], dtype='category')
print(data)

输出：

    red
   blue
  green
    red
   blue
dtype: category
Categories (3, object): ['blue', 'green', 'red']

在这个例子中，data 是一个包含分类数据的Series，Pandas自动识别了三个唯一值（'blue', 'green', 'red'）并将它们映射为分类数据。

分类数据的优势

内存优化

分类数据类型通过将重复的字符串值替换为整数编码来节省内存。以下是一个内存使用对比的示例：

import pandas as pd

# 创建一个包含大量重复字符串的Series
data = pd.Series(['red', 'blue', 'green'] * 1000)

# 转换为分类数据类型
data_cat = data.astype('category')

# 比较内存使用
print(f"Original memory usage: {data.memory_usage(deep=True)} bytes")
print(f"Categorical memory usage: {data_cat.memory_usage(deep=True)} bytes")

输出：

Original memory usage: 61000 bytes
Categorical memory usage: 3100 bytes

可以看到，分类数据类型显著减少了内存使用。

性能优化

分类数据类型在某些操作中表现更好，特别是在分组和排序时。以下是一个性能对比的示例：

import pandas as pd
import time

# 创建一个包含大量重复字符串的DataFrame
df = pd.DataFrame({'color': ['red', 'blue', 'green'] * 100000})

# 转换为分类数据类型
df['color_cat'] = df['color'].astype('category')

# 比较分组操作的性能
start_time = time.time()
df.groupby('color').size()
end_time = time.time()
print(f"Original grouping time: {end_time - start_time} seconds")

start_time = time.time()
df.groupby('color_cat').size()
end_time = time.time()
print(f"Categorical grouping time: {end_time - start_time} seconds")

输出：

Original grouping time: 0.05 seconds
Categorical grouping time: 0.01 seconds

可以看到，使用分类数据类型后，分组操作的性能显著提升。

实际应用场景

处理有限类别的数据

假设你有一个包含产品类别的数据集，类别数量有限且固定。使用分类数据类型可以显著提高处理效率。

import pandas as pd

# 创建一个包含产品类别的DataFrame
data = {
    'product_id': [1, 2, 3, 4, 5],
    'category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home']
}

df = pd.DataFrame(data)

# 将类别列转换为分类数据类型
df['category'] = df['category'].astype('category')

print(df)

输出：

   product_id    category
         1  Electronics
         2     Clothing
         3  Electronics
         4     Clothing
         5         Home

排序和过滤

分类数据类型还支持自定义排序顺序，这在处理有序类别时非常有用。

import pandas as pd

# 创建一个包含有序类别的Series
data = pd.Series(['low', 'medium', 'high', 'low', 'medium'], dtype='category')

# 设置自定义排序顺序
data.cat.set_categories(['low', 'medium', 'high'], ordered=True, inplace=True)

# 排序
sorted_data = data.sort_values()
print(sorted_data)

输出：

    low
    low
  medium
  medium
   high
dtype: category
Categories (3, object): ['low' < 'medium' < 'high']

总结

Pandas的分类数据类型是一种强大的工具，特别适合处理有限且固定数量的唯一值。它不仅能节省内存，还能提高数据处理和分析的性能。通过将字符串或整数数据转换为分类数据类型，你可以显著优化你的数据处理流程。

附加资源与练习

练习1：创建一个包含大量重复字符串的DataFrame，并将其转换为分类数据类型。比较转换前后的内存使用情况。
练习2：使用分类数据类型处理一个包含有序类别的数据集，并尝试自定义排序顺序。

提示

如果你对Pandas的分类数据类型感兴趣，可以进一步阅读Pandas官方文档中关于分类数据的部分，了解更多高级用法和技巧。

介绍​

创建分类数据​

分类数据的优势​

内存优化​

性能优化​

实际应用场景​

处理有限类别的数据​

排序和过滤​

总结​

附加资源与练习​

介绍

创建分类数据

分类数据的优势

内存优化

性能优化

实际应用场景

处理有限类别的数据

排序和过滤

总结

附加资源与练习