Pandas 扩展数据类型

Pandas是Python中用于数据处理和分析的强大工具。它提供了丰富的数据类型来支持各种数据操作。除了常见的数据类型（如整数、浮点数、字符串等），Pandas还引入了扩展数据类型（Extension Data Types），这些类型可以帮助我们更高效地处理特定类型的数据。

什么是扩展数据类型？

扩展数据类型是Pandas提供的一种机制，允许用户定义和使用自定义的数据类型。这些类型通常用于优化存储和处理特定类型的数据，例如分类数据、时间序列数据或稀疏数据。通过使用扩展数据类型，我们可以减少内存占用并提高计算效率。

Pandas内置了一些常见的扩展数据类型，例如：

Categorical：用于表示分类数据。
DatetimeTZ：用于处理带时区的时间数据。
Sparse：用于处理稀疏数据（即大部分值为空的数据）。

此外，Pandas还支持用户自定义扩展数据类型。

内置扩展数据类型

1. 分类数据 (`Categorical`)

分类数据是一种特殊的数据类型，适用于具有有限且固定数量的可能值的数据。例如，性别（男、女）、星期（周一至周日）等。

示例：使用 `Categorical` 类型

import pandas as pd

# 创建一个包含分类数据的Series
data = pd.Series(["男", "女", "男", "女", "男"], dtype="category")
print(data)

输出：

  男
  女
  男
  女
  男
dtype: category
Categories (2, object): ['男', '女']

提示

使用 Categorical 类型可以显著减少内存占用，尤其是在处理大量重复的分类数据时。

2. 带时区的时间数据 (`DatetimeTZ`)

在处理时间序列数据时，时区信息非常重要。Pandas提供了 DatetimeTZ 类型来存储带时区的时间数据。

示例：使用 `DatetimeTZ` 类型

import pandas as pd

# 创建一个带时区的时间序列
timestamps = pd.to_datetime(["2023-10-01 12:00", "2023-10-02 15:00"]).tz_localize("UTC")
print(timestamps)

输出：

DatetimeIndex(['2023-10-01 12:00:00+00:00', '2023-10-02 15:00:00+00:00'], dtype='datetime64[ns, UTC]', freq=None)

备注

DatetimeTZ 类型可以帮助我们避免时区混淆问题，确保时间数据的准确性。

3. 稀疏数据 (`Sparse`)

稀疏数据是指数据集中大部分值为空（或默认值）的情况。Pandas提供了 Sparse 类型来高效存储和处理这种数据。

示例：使用 `Sparse` 类型

import pandas as pd
import numpy as np

# 创建一个稀疏数据Series
data = pd.Series([0, 0, 1, 0, 0, 2], dtype="Sparse[int]")
print(data)

输出：

  0
  0
  1
  0
  0
  2
dtype: Sparse[int64, 0]

警告

稀疏数据类型适用于数据集中大部分值为空的情况，但如果数据密集，使用稀疏类型反而会增加内存占用。

自定义扩展数据类型

除了内置的扩展数据类型，Pandas还允许用户定义自己的扩展数据类型。这需要实现 ExtensionDtype 和 ExtensionArray 接口。

示例：自定义扩展数据类型

以下是一个简单的自定义扩展数据类型示例，用于存储布尔值：

import pandas as pd
import numpy as np

class BoolDtype(pd.api.extensions.ExtensionDtype):
    @property
    def name(self):
        return "bool"

    @property
    def type(self):
        return bool

    @property
    def kind(self):
        return "b"

class BoolArray(pd.api.extensions.ExtensionArray):
    def __init__(self, values):
        self.values = np.asarray(values, dtype=bool)

    @classmethod
    def _from_sequence(cls, scalars):
        return cls(scalars)

    def __getitem__(self, item):
        return self.values[item]

    def __len__(self):
        return len(self.values)

# 使用自定义扩展数据类型
data = BoolArray([True, False, True])
print(data)

输出：

[ True False  True]

注意

自定义扩展数据类型需要实现多个接口，适合高级用户使用。初学者可以先掌握内置扩展数据类型。

实际应用场景

场景 1：优化分类数据存储

假设我们有一个包含数百万行数据的数据集，其中一列是性别（男、女）。使用 Categorical 类型可以显著减少内存占用。

import pandas as pd

# 创建一个包含大量分类数据的数据集
data = pd.Series(["男"] * 1000000 + ["女"] * 1000000, dtype="category")
print(data.memory_usage(deep=True))  # 查看内存占用

输出：

场景 2：处理带时区的时间数据

在处理全球用户的时间数据时，DatetimeTZ 类型可以确保时间数据的准确性。

import pandas as pd

# 创建一个带时区的时间序列
timestamps = pd.to_datetime(["2023-10-01 12:00", "2023-10-02 15:00"]).tz_localize("UTC")
print(timestamps.tz_convert("Asia/Shanghai"))  # 转换为上海时区

输出：

DatetimeIndex(['2023-10-01 20:00:00+08:00', '2023-10-02 23:00:00+08:00'], dtype='datetime64[ns, Asia/Shanghai]', freq=None)

总结

Pandas的扩展数据类型为我们提供了更高效的数据存储和处理方式。通过使用内置的扩展数据类型（如 Categorical、DatetimeTZ 和 Sparse），我们可以优化内存占用并提高计算效率。此外，Pandas还支持自定义扩展数据类型，适合高级用户使用。

附加资源与练习

官方文档：阅读 Pandas扩展数据类型官方文档以了解更多细节。
练习：尝试在一个包含分类数据的数据集中使用 Categorical 类型，并比较内存占用的变化。
扩展学习：探索如何自定义扩展数据类型，并尝试实现一个简单的自定义类型。

希望这篇内容能帮助你更好地理解和使用Pandas的扩展数据类型！如果你有任何问题，欢迎在评论区留言。

什么是扩展数据类型？​

内置扩展数据类型​

1. 分类数据 (Categorical)​

示例：使用 Categorical 类型​

2. 带时区的时间数据 (DatetimeTZ)​

示例：使用 DatetimeTZ 类型​

3. 稀疏数据 (Sparse)​

示例：使用 Sparse 类型​

自定义扩展数据类型​

示例：自定义扩展数据类型​

实际应用场景​

场景 1：优化分类数据存储​

场景 2：处理带时区的时间数据​

总结​

附加资源与练习​

什么是扩展数据类型？

内置扩展数据类型

1. 分类数据 (`Categorical`)

示例：使用 `Categorical` 类型

2. 带时区的时间数据 (`DatetimeTZ`)

示例：使用 `DatetimeTZ` 类型

3. 稀疏数据 (`Sparse`)

示例：使用 `Sparse` 类型

自定义扩展数据类型

示例：自定义扩展数据类型

实际应用场景

场景 1：优化分类数据存储

场景 2：处理带时区的时间数据

总结

附加资源与练习