Python 常见陷阱

概述

Python以其简洁易读的语法和丰富的生态系统而闻名，这使其成为初学者的理想选择。然而，与任何编程语言一样，Python也有一些可能导致令人困惑的行为或难以发现的错误的特性。这些"陷阱"可能会让新手感到沮丧，但了解它们将帮助你编写更健壮、更可靠的代码。

本文将介绍Python中最常见的陷阱，解释它们为什么会发生，以及如何避免它们。通过掌握这些知识，你将能够编写更清晰、更少错误的Python代码。

可变默认参数

这可能是Python中最著名的陷阱之一。当你使用可变对象（如列表、字典或集合）作为函数参数的默认值时，它们会在函数定义时被创建一次，而非每次调用函数时都创建。

问题示例

def add_item(item, my_list=[]):
    my_list.append(item)
    return my_list

print(add_item(1))  # 输出: [1]
print(add_item(2))  # 预期: [2], 但实际输出: [1, 2]
print(add_item(3))  # 预期: [3], 但实际输出: [1, 2, 3]

原因解释

默认参数值是在函数定义时计算的，而不是在函数调用时。当函数被定义时，my_list=[]创建了一个空列表，后续的每次调用都会使用这个相同的列表对象。

解决方法

使用None作为默认值，然后在函数内部检查并创建新的列表：

def add_item(item, my_list=None):
    if my_list is None:
        my_list = []
    my_list.append(item)
    return my_list

print(add_item(1))  # 输出: [1]
print(add_item(2))  # 输出: [2]
print(add_item(3))  # 输出: [3]

延迟绑定闭包

在循环中创建函数时，所有函数可能会共享相同的变量值，而不是每个函数捕获独立的值。

问题示例

functions = []
for i in range(3):
    functions.append(lambda: i)

for f in functions:
    print(f())  # 预期: 0, 1, 2, 但实际输出: 2, 2, 2

原因解释

Lambda函数不会立即捕获变量i的值，而是在被调用时引用当前环境中的i。由于循环结束时i的值是2，所以所有函数都返回2。

解决方法

使用默认参数值来捕获循环变量的当前值：

functions = []
for i in range(3):
    functions.append(lambda i=i: i)  # 默认参数会在定义时绑定

for f in functions:
    print(f())  # 输出: 0, 1, 2

浮点数精度问题

Python中的浮点数计算可能会导致精度问题，这是由于浮点数在计算机中的二进制表示方式所致。

问题示例

print(0.1 + 0.2)  # 预期: 0.3, 但实际输出: 0.30000000000000004
print(0.1 + 0.2 == 0.3)  # 预期: True, 但实际输出: False

解决方法

对于需要精确小数计算的场景，使用decimal模块：

from decimal import Decimal

print(Decimal('0.1') + Decimal('0.2'))  # 输出: 0.3
print(Decimal('0.1') + Decimal('0.2') == Decimal('0.3'))  # 输出: True

或者在比较浮点数时使用近似相等的方法：

def is_close(a, b, rel_tol=1e-9):
    return abs(a - b) <= rel_tol

print(is_close(0.1 + 0.2, 0.3))  # 输出: True

提示

从Python 3.5开始，标准库提供了math.isclose()函数，可以替代上面的自定义函数。

可变与不可变对象

Python中的对象分为可变（mutable）和不可变（immutable）两种。理解这一区别对避免意外行为至关重要。

可变对象包括：

列表（list）
字典（dict）
集合（set）

不可变对象包括：

整数（int）
浮点数（float）
字符串（str）
元组（tuple）

问题示例

# 列表（可变）
list1 = [1, 2, 3]
list2 = list1
list2.append(4)
print(list1)  # 输出: [1, 2, 3, 4]

# 字符串（不可变）
string1 = "hello"
string2 = string1
string2 = string2 + " world"
print(string1)  # 输出: hello

解决方法

当需要复制可变对象而不是引用它们时，使用适当的复制方法：

# 浅拷贝
import copy
list1 = [1, 2, [3, 4]]
list2 = copy.copy(list1)  # 或 list2 = list1.copy() 或 list2 = list1[:]
list2[0] = 9
print(list1)  # 输出: [1, 2, [3, 4]]
list2[2][0] = 9
print(list1)  # 输出: [1, 2, [9, 4]]  # 注意嵌套列表被修改了

# 深拷贝
list1 = [1, 2, [3, 4]]
list3 = copy.deepcopy(list1)
list3[2][0] = 9
print(list1)  # 输出: [1, 2, [3, 4]]  # 嵌套列表不受影响

`is` 与 `==` 的区别

is运算符检查两个变量是否引用同一个对象（身份比较），而==运算符检查两个变量的值是否相等（值比较）。

问题示例

a = [1, 2, 3]
b = [1, 2, 3]
print(a == b)  # 输出: True（值相等）
print(a is b)  # 输出: False（不是同一个对象）

# 整数缓存的特殊情况
x = 256
y = 256
print(x is y)  # 输出: True（Python缓存了-5到256的整数）

x = 257
y = 257
print(x is y)  # 通常会输出: False（超出缓存范围）

最佳实践

使用is来检查一个对象是否为None: if x is None:
使用==来比较值: if x == 0:

全局变量与局部变量

在函数内部修改全局变量时，需要使用global关键字声明。

问题示例

counter = 0

def increment():
    counter += 1  # 这会引发UnboundLocalError

# increment()  # 错误：UnboundLocalError: local variable 'counter' referenced before assignment

原因解释

当你在函数内部尝试修改一个变量时，Python会假定它是一个局部变量。但在实际赋值前引用它会导致错误，因为局部变量'counter'尚未定义。

解决方法

counter = 0

def increment():
    global counter
    counter += 1
    return counter

print(increment())  # 输出: 1
print(increment())  # 输出: 2

类变量与实例变量

类变量由所有类实例共享，而实例变量对每个实例都是唯一的。

问题示例

class Student:
    grades = []  # 类变量
    
    def __init__(self, name):
        self.name = name  # 实例变量
    
    def add_grade(self, grade):
        self.grades.append(grade)  # 使用类变量

student1 = Student("Alice")
student2 = Student("Bob")

student1.add_grade(90)
print(student2.grades)  # 预期: [], 但实际输出: [90]

解决方法

将可变数据结构定义为实例变量而非类变量：

class Student:
    def __init__(self, name):
        self.name = name
        self.grades = []  # 实例变量
    
    def add_grade(self, grade):
        self.grades.append(grade)

student1 = Student("Alice")
student2 = Student("Bob")

student1.add_grade(90)
print(student2.grades)  # 输出: []

列表推导式中的变量泄漏

在Python 3.x之前，列表推导式中的循环变量会泄漏到外部作用域。

问题示例（Python 2.x）

# 在Python 2.x中
i = 10
squares = [i*i for i in range(5)]
print(i)  # 输出: 4（循环变量泄漏）

Python 3.x中的改进

Python 3.x修复了这个问题，列表推导式有自己的作用域：

i = 10
squares = [i*i for i in range(5)]
print(i)  # 输出: 10（循环变量没有泄漏）

警告

如果你使用的是Python 2.x，请注意这一区别。在Python 3.x中，这不再是个问题。

异常处理中的变量作用域

在try/except块中，异常变量的作用域行为在不同Python版本中有所不同。

Python 2.x中的行为

try:
    1/0
except ZeroDivisionError as e:
    pass

print(e)  # 在Python 2.x中可以访问，但在Python 3.x中会引发NameError

Python 3.x中的行为

在Python 3.x中，异常变量仅在except块中有效，超出该范围会被自动删除。

try:
    1/0
except ZeroDivisionError as e:
    error_message = str(e)  # 在块内保存异常信息

# 在这里不能使用e，但可以使用error_message
print(error_message)  # 输出: division by zero

字符串格式化的陷阱

Python提供了多种字符串格式化方法，每种都有自己的优缺点。

老式的%格式化

name = "Alice"
age = 30
print("Name: %s, Age: %d" % (name, age))  # 输出: Name: Alice, Age: 30

陷阱：顺序必须匹配，增加、删除或重排参数时容易出错。

str.format()方法

name = "Alice"
age = 30
print("Name: {}, Age: {}".format(name, age))  # 输出: Name: Alice, Age: 30
print("Name: {1}, Age: {0}".format(age, name))  # 输出: Name: Alice, Age: 30

更灵活，但仍需注意参数顺序或使用索引/键名。

f-字符串（Python 3.6+）

name = "Alice"
age = 30
print(f"Name: {name}, Age: {age}")  # 输出: Name: Alice, Age: 30

最直观、易读的方式，但仅在较新的Python版本中可用。

提示

尽可能使用f-字符串（如果你的项目需要兼容较旧的Python版本，则考虑使用str.format()）。

实际应用案例：Bug排查

以下是一个真实场景，演示如何识别和修复包含多个Python陷阱的代码：

有问题的代码

def process_data(data, results=[]):
    for i in range(len(data)):
        item = data[i]
        processed = item * 2
        results.append(processed)
    return results

def generate_processors():
    processors = []
    for i in range(3):
        processors.append(lambda x: x + i)
    return processors

# 主程序
dataset1 = [1, 2, 3]
result1 = process_data(dataset1)
print(f"Result 1: {result1}")  # 期望: [2, 4, 6]

dataset2 = [4, 5, 6]
result2 = process_data(dataset2)
print(f"Result 2: {result2}")  # 期望: [8, 10, 12], 但会输出 [2, 4, 6, 8, 10, 12]

funcs = generate_processors()
for func in funcs:
    print(func(10))  # 期望: 10, 11, 12, 但会输出 12, 12, 12

修复后的代码

def process_data(data, results=None):
    if results is None:
        results = []
    for item in data:  # 使用for-each循环简化代码
        processed = item * 2
        results.append(processed)
    return results

def generate_processors():
    processors = []
    for i in range(3):
        processors.append(lambda x, i=i: x + i)  # 使用默认参数捕获i的当前值
    return processors

# 主程序
dataset1 = [1, 2, 3]
result1 = process_data(dataset1)
print(f"Result 1: {result1}")  # 输出: [2, 4, 6]

dataset2 = [4, 5, 6]
result2 = process_data(dataset2)
print(f"Result 2: {result2}")  # 输出: [8, 10, 12]

funcs = generate_processors()
for func in funcs:
    print(func(10))  # 输出: 10, 11, 12

总结

Python作为一门设计优雅的语言，仍然有一些需要注意的陷阱。了解这些常见陷阱将帮助你避免令人困惑的bug，编写更健壮的代码。以下是本文涵盖的主要陷阱：

可变默认参数
延迟绑定闭包
浮点数精度问题
可变与不可变对象的区别
is 与 == 操作符的区别
全局变量与局部变量
类变量与实例变量
列表推导式中的变量泄漏（Python 2.x）
异常处理中的变量作用域
字符串格式化的陷阱

记住这些陷阱并了解如何避免它们，将使你成为一个更高效的Python程序员。随着经验的积累，你会发现这些曾经困扰你的问题变得容易识别和预防。

练习与进一步学习

为了巩固你对这些陷阱的理解，尝试以下练习：

编写一个函数，接受列表作为默认参数，但避免可变默认参数陷阱。
创建一个生成多个函数的函数，每个函数应该捕获不同的值。
实现一个安全的浮点数比较函数。
编写一个程序，演示可变对象与不可变对象的行为差异。

进一步学习资源

记住，编程是一个不断学习的过程。通过了解这些陷阱并积极实践，你将成为一个更熟练的Python开发者。

概述​

可变默认参数​

问题示例​

原因解释​

解决方法​

延迟绑定闭包​

问题示例​

原因解释​

解决方法​

浮点数精度问题​

问题示例​

解决方法​

可变与不可变对象​

可变对象包括：​

不可变对象包括：​

问题示例​

解决方法​

is 与 == 的区别​

问题示例​

最佳实践​

全局变量与局部变量​

问题示例​

原因解释​

解决方法​

类变量与实例变量​

问题示例​

解决方法​

列表推导式中的变量泄漏​

问题示例（Python 2.x）​

Python 3.x中的改进​

异常处理中的变量作用域​

Python 2.x中的行为​

Python 3.x中的行为​

字符串格式化的陷阱​

老式的%格式化​

str.format()方法​

f-字符串（Python 3.6+）​

实际应用案例：Bug排查​

有问题的代码​

修复后的代码​

总结​

练习与进一步学习​

进一步学习资源​

概述

可变默认参数

问题示例

原因解释

解决方法

延迟绑定闭包

问题示例

原因解释

解决方法

浮点数精度问题

问题示例

解决方法

可变与不可变对象

可变对象包括：

不可变对象包括：

问题示例

解决方法

`is` 与 `==` 的区别

问题示例

最佳实践

全局变量与局部变量

问题示例

原因解释

解决方法

类变量与实例变量

问题示例

解决方法

列表推导式中的变量泄漏

问题示例（Python 2.x）

Python 3.x中的改进

异常处理中的变量作用域

Python 2.x中的行为

Python 3.x中的行为

字符串格式化的陷阱

老式的%格式化

str.format()方法

f-字符串（Python 3.6+）

实际应用案例：Bug排查

有问题的代码

修复后的代码

总结

练习与进一步学习

进一步学习资源