Pandas 数据拼接

在数据处理中，我们经常需要将多个数据集合并为一个。Pandas提供了多种数据拼接方法，包括concat、merge和join。这些方法可以帮助我们轻松地将多个数据集按行或列进行拼接，从而满足不同的数据处理需求。

1. 什么是数据拼接？

数据拼接是指将两个或多个数据集按照一定的规则组合在一起。Pandas提供了多种拼接方法，适用于不同的场景：

concat：用于沿指定轴（行或列）拼接多个数据集。
merge：用于根据一个或多个键将两个数据集合并。
join：类似于merge，但主要用于基于索引的合并。

接下来，我们将逐一介绍这些方法。

2. 使用`concat`进行数据拼接

concat是Pandas中最常用的拼接方法之一，它可以沿行（axis=0）或列（axis=1）拼接多个数据集。

示例1：沿行拼接

假设我们有两个数据集df1和df2，它们的列名相同，我们希望将它们按行拼接：

import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
})

df2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5']
})

result = pd.concat([df1, df2], axis=0)
print(result)

输出：

    A   B
A0  B0
A1  B1
A2  B2
A3  B3
A4  B4
A5  B5

备注

默认情况下，concat会保留原始索引。如果需要重置索引，可以设置ignore_index=True。

示例2：沿列拼接

如果我们希望按列拼接数据集，可以将axis参数设置为1：

result = pd.concat([df1, df2], axis=1)
print(result)

输出：

     A    B    A    B
 A0   B0   A3   B3
 A1   B1   A4   B4
 A2   B2   A5   B5

3. 使用`merge`进行数据合并

merge方法用于根据一个或多个键将两个数据集合并。它类似于SQL中的JOIN操作。

示例3：基于单个键合并

假设我们有两个数据集df1和df2，它们有一个共同的列key：

df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

result = pd.merge(df1, df2, on='key')
print(result)

输出：

  key   A   B
0  K0  A0  B0
1  K1  A1  B1

提示

默认情况下，merge执行的是内连接（inner join）。如果需要其他类型的连接，可以设置how参数，例如how='left'、how='right'或how='outer'。

示例4：基于多个键合并

如果数据集有多个共同的列，可以基于多个键进行合并：

result = pd.merge(df1, df2, on=['key1', 'key2'])

4. 使用`join`进行数据合并

join方法类似于merge，但它主要用于基于索引的合并。

示例5：基于索引合并

假设我们有两个数据集df1和df2，它们的索引相同：

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=['K0', 'K1', 'K3'])

result = df1.join(df2, how='outer')
print(result)

输出：

     A    B    C    D
K0   A0   B0   C0   D0
K1   A1   B1   C1   D1
K2   A2   B2  NaN  NaN
K3  NaN  NaN   C2   D2

警告

join默认执行左连接（left join）。如果需要其他类型的连接，可以设置how参数。

5. 实际应用场景

场景1：合并销售数据

假设我们有两个销售数据集，一个是2022年的销售数据，另一个是2023年的销售数据。我们可以使用concat将它们按行拼接，形成一个完整的销售数据集。

场景2：合并客户信息

假设我们有一个客户信息表和一个订单表，我们可以使用merge根据客户ID将两个表合并，从而获得每个订单对应的客户信息。

6. 总结

concat：适用于沿行或列拼接多个数据集。
merge：适用于基于一个或多个键合并两个数据集。
join：适用于基于索引合并数据集。

掌握这些方法可以帮助你轻松处理多个数据集的拼接任务。

7. 附加资源与练习

练习1：创建两个数据集，分别包含学生的姓名和成绩，使用concat将它们按行拼接。
练习2：创建两个数据集，分别包含员工的ID和部门信息，使用merge将它们合并。
练习3：创建两个数据集，分别包含产品的ID和价格，使用join将它们合并。

注意

在实际应用中，务必注意数据集的索引和键是否一致，以避免合并错误。

1. 什么是数据拼接？​

2. 使用concat进行数据拼接​

示例1：沿行拼接​

示例2：沿列拼接​

3. 使用merge进行数据合并​

示例3：基于单个键合并​

示例4：基于多个键合并​

4. 使用join进行数据合并​

示例5：基于索引合并​

5. 实际应用场景​

场景1：合并销售数据​

场景2：合并客户信息​

6. 总结​

7. 附加资源与练习​

1. 什么是数据拼接？

2. 使用`concat`进行数据拼接

示例1：沿行拼接

示例2：沿列拼接

3. 使用`merge`进行数据合并

示例3：基于单个键合并

示例4：基于多个键合并

4. 使用`join`进行数据合并

示例5：基于索引合并

5. 实际应用场景

场景1：合并销售数据

场景2：合并客户信息

6. 总结

7. 附加资源与练习