Pandas 性能优化

📚 目录

内存优化
读取大文件的优化
数据类型优化
向量化操作与 .apply() 的区别
使用 Cython 和 Numba 提高计算性能
并行计算与多线程
参考资料
出站链接

1. 内存优化

在处理大规模数据时，内存管理是一个关键问题。通过合理优化内存使用，可以显著提升性能。

✅ 使用合适的数据类型

选择合适的数据类型能显著减少内存占用，例如使用 category 类型处理字符串列。

df['City'] = df['City'].astype('category')

✅ 使用 `float32` 或 `int32` 而不是 `float64` 或 `int64`

对于大多数数据集，float32 和 int32 足以满足精度需求，且能节省内存。

df['Age'] = df['Age'].astype('float32')

2. 读取大文件的优化

Pandas 读取大文件时可能会变得很慢。通过以下几种方法可以优化读取性能。

✅ 使用 `chunksize` 分块读取

当文件过大时，可以将文件分块读取，每次读取部分数据进行处理，避免一次性加载到内存中。

chunksize = 100000  # 分块大小
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    process(chunk)  # 对每个块进行处理

✅ 只加载需要的列

如果只需要某些列的数据，可以通过 usecols 参数只加载这些列。

df = pd.read_csv('large_file.csv', usecols=['Age', 'City'])

3. 数据类型优化

选择最适合的列数据类型是优化内存和性能的关键。

✅ 使用 `category` 类型优化字符串列

df['City'] = df['City'].astype('category')

✅ 精简数字数据类型

对于数值列，使用 int32 或 float32 替代 int64 或 float64 可以减少内存占用。

df['Age'] = df['Age'].astype('int32')

4. 向量化操作与 `.apply()` 的区别

Pandas 的向量化操作通过 C 和 Cython 优化，速度比使用 .apply() 更快。

✅ 向量化操作示例：

df['Age'] + 10  # 向量化操作

✅ `.apply()` 示例：

df['Age'].apply(lambda x: x + 10)  # 比向量化操作慢

使用向量化操作（直接对整个列进行操作）通常比 .apply() 快。

5. 使用 `Cython` 和 `Numba` 提高计算性能

Cython 和 Numba 都是可以加速 Pandas 计算的方法。它们通过将 Python 代码编译为机器代码，提高性能。

✅ 使用 Cython 优化代码：

通过将 Python 函数转换为 Cython 代码，利用 C 语言的速度提高计算性能。

# 使用 Cython 编写加速函数

✅ 使用 Numba 加速计算：

Numba 是一个 Just-In-Time 编译器，可以加速大规模数据处理。

from numba import jit

@jit
def process_data(x):
    return x + 10

6. 并行计算与多线程

Pandas 本身并不支持并行计算，但可以通过并行计算库（如 Dask 或 joblib）来实现多核处理。

✅ 使用 Dask 实现并行计算：

import dask.dataframe as dd

dask_df = dd.read_csv('large_file.csv')
dask_df.compute()  # 启动计算

✅ 使用 Joblib 并行计算：

from joblib import Parallel, delayed

def process(chunk):
    return chunk['Age'].mean()

result = Parallel(n_jobs=4)(delayed(process)(chunk) for chunk in pd.read_csv('large_file.csv', chunksize=100000))

📖 参考资料

《Python for Data Analysis》第十章：性能优化
Dask 官方文档：Dask Overview
Pandas 官方文档：Optimizing Performance

📚 目录

1. 内存优化

✅ 使用合适的数据类型

✅ 使用 `float32` 或 `int32` 而不是 `float64` 或 `int64`

2. 读取大文件的优化

✅ 使用 `chunksize` 分块读取

✅ 只加载需要的列

3. 数据类型优化

✅ 使用 `category` 类型优化字符串列

✅ 精简数字数据类型

4. 向量化操作与 `.apply()` 的区别

✅ 向量化操作示例：

✅ `.apply()` 示例：

5. 使用 `Cython` 和 `Numba` 提高计算性能

✅ 使用 Cython 优化代码：

✅ 使用 Numba 加速计算：

6. 并行计算与多线程

✅ 使用 Dask 实现并行计算：

✅ 使用 Joblib 并行计算：

📖 参考资料

🔗 出站链接

lichongyang

发表回复取消回复

近期文章

近期评论

归档

分类

Pandas 性能优化

📚 目录

1. 内存优化

✅ 使用合适的数据类型

✅ 使用 float32 或 int32 而不是 float64 或 int64

2. 读取大文件的优化

✅ 使用 chunksize 分块读取

✅ 只加载需要的列

3. 数据类型优化

✅ 使用 category 类型优化字符串列

✅ 精简数字数据类型

4. 向量化操作与 .apply() 的区别

✅ 向量化操作示例：

✅ .apply() 示例：

5. 使用 Cython 和 Numba 提高计算性能

✅ 使用 Cython 优化代码：

✅ 使用 Numba 加速计算：

6. 并行计算与多线程

✅ 使用 Dask 实现并行计算：

✅ 使用 Joblib 并行计算：

📖 参考资料

🔗 出站链接

lichongyang

发表回复 取消回复

近期文章

近期评论

归档

分类

✅ 使用 `float32` 或 `int32` 而不是 `float64` 或 `int64`

✅ 使用 `chunksize` 分块读取

✅ 使用 `category` 类型优化字符串列

4. 向量化操作与 `.apply()` 的区别

✅ `.apply()` 示例：

5. 使用 `Cython` 和 `Numba` 提高计算性能

发表回复取消回复