安装#

pandas 开发团队通过以下方式正式分发 pandas 以供安装

  • 可通过 conda-forge 使用 conda 包管理器安装。

  • 可通过 PyPI 使用 pip 安装。

  • 可通过 Github 从源代码安装。

注意

pandas 可能还可以从上述列表之外的其他来源安装,但这些来源由 pandas 开发团队管理。

Python 版本支持#

请参阅 Python 支持策略

安装 pandas#

使用 Conda 安装#

对于使用 Conda 包管理器的用户,可以从 conda-forge 频道安装 pandas。

conda install -c conda-forge pandas

建议使用 Miniforge 发行版 在您的系统上安装 Conda 包管理器。

此外,建议在虚拟环境中安装和运行 pandas。

conda create -c conda-forge -n name_of_my_env python pandas
# On Linux or MacOS
source activate name_of_my_env
# On Windows
activate name_of_my_env

提示

对于 Python 新手来说,安装 Python、pandas 以及构成 PyData 栈的包(如 SciPyNumPyMatplotlib)的最简单方法是使用 Anaconda,这是一个跨平台(Linux、macOS、Windows)的 Python 发行版,用于数据分析和科学计算。

但是,Anaconda 中的 pandas 由 pandas 开发团队官方管理。

使用 pip 安装#

对于使用 pip 包管理器的用户,可以从 PyPI 安装 pandas。

pip install pandas

还可以安装带有可选依赖项集的 pandas 以启用某些功能。例如,安装带有用于读取 Excel 文件的可选依赖项的 pandas。

pip install "pandas[excel]"

完整的可选安装依赖项列表可在 依赖项部分 中找到。

此外,建议在虚拟环境中安装和运行 pandas,例如,使用 Python 标准库的 venv

从源代码安装#

有关从 git 源代码树构建的完整说明,请参阅 贡献指南。如果您希望创建 pandas 开发环境,请进一步参阅 创建开发环境

安装 pandas 的开发版本#

安装开发版本是

  • 尝试将在下一个版本中发布的(即,最近合并到主分支的 pull-request 中的)新功能的最快方法。

  • 检查您遇到的 bug 自上次发布以来是否已修复。

开发版本通常每天从 anaconda.org 的 PyPI 注册表上传到 scientific-python-nightly-wheels 索引。您可以通过运行以下命令来安装它。

pip install --pre --extra-index-url https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas

注意

安装开发版本可能需要卸载当前版本的 pandas。

pip uninstall pandas -y

运行测试套件#

如果 pandas 是 从源代码 安装的,运行 pytest pandas 将运行所有 pandas 的单元测试。

还可以使用 pandas 模块本身的 test() 函数来运行单元测试。运行测试所需的包可以使用 pip install "pandas[test]" 进行安装。

注意

测试失败不一定表示 pandas 安装有问题。

依赖项#

必需的依赖项#

pandas 需要以下依赖项。

最低支持版本

NumPy

1.26.0

python-dateutil

2.8.2

tzdata *

/

* tzdata 仅在 Windows 和 Pyodide (Emscripten) 上需要。

通常,最低支持版本比主要或次要 pandas 版本发布日期晚约 2 年。

可选依赖项#

pandas 有许多可选依赖项,它们仅用于特定方法。例如,pandas.read_hdf() 需要 pytables 包,而 DataFrame.to_markdown() 需要 tabulate 包。如果未安装可选依赖项,当调用需要该依赖项的方法时,pandas 将引发 ImportError

使用 pip,可以将可选的 pandas 依赖项作为可选的扩展(例如,pandas[performance, aws])安装或管理在文件中(例如 requirements.txt 或 pyproject.toml)。可以使用 pandas[all] 安装所有可选依赖项,并且下面各部分列出了特定的依赖项集。

通常,最低支持版本比主要或次要 pandas 版本发布日期晚约 1 年。旧版可选依赖项仍可能工作,但未经测试或不被支持。

可视化#

可使用 pip install "pandas[plot, output-formatting]" 进行安装。

依赖项

最低版本

pip 扩展

注意

matplotlib

3.8.3

plot

绘图库

Jinja2

3.1.3

output-formatting

使用 DataFrame.style 进行条件格式化

tabulate

0.9.0

output-formatting

以 Markdown 友好格式打印(请参阅 tabulate

计算#

可使用 pip install "pandas[computation]" 进行安装。

依赖项

最低版本

pip 扩展

注意

SciPy

1.14.1

computation

杂项统计函数

xarray

2024.10.0

computation

N 维数据的类似 pandas 的 API

Excel 文件#

可使用 pip install "pandas[excel]" 进行安装。

依赖项

最低版本

pip 扩展

注意

xlrd

2.0.1

excel

读取 xls 文件

xlsxwriter

3.2.0

excel

写入 xlsx 文件

openpyxl

3.1.5

excel

读取/写入 Excel 2010 xlsx/xlsm/xltx/xltm 文件

pyxlsb

1.0.10

excel

读取 xlsb 文件

python-calamine

0.3.0

excel

读取 xls/xlsx/xlsm/xlsb/xla/xlam/ods 文件

odfpy

1.4.1

excel

读取/写入 OpenDocument 1.2 文件

HTML#

可使用 pip install "pandas[html]" 进行安装。

依赖项

最低版本

pip 扩展

注意

BeautifulSoup4

4.12.3

html

read_html 的 HTML 解析器

html5lib

1.1

html

read_html 的 HTML 解析器

lxml

4.9.2

html

read_html 的 HTML 解析器

使用顶层 read_html() 函数需要以下库的组合之一。

警告

XML#

可使用 pip install "pandas[xml]" 进行安装。

依赖项

最低版本

pip 扩展

注意

lxml

5.3.0

xml

read_xml 的 XML 解析器和 to_xml 的树构建器

SQL 数据库#

传统驱动程序可使用 pip install "pandas[postgresql, mysql, sql-other]" 进行安装。

依赖项

最低版本

pip 扩展

注意

SQLAlchemy

2.0.36

postgresql, mysql, sql-other

sqlite 以外数据库的 SQL 支持

psycopg2

2.9.10

postgresql

sqlalchemy 的 PostgreSQL 引擎

pymysql

1.1.1

mysql

sqlalchemy 的 MySQL 引擎

adbc-driver-postgresql

1.2.0

postgresql

PostgreSQL 的 ADBC 驱动程序

adbc-driver-sqlite

1.2.0

sql-other

SQLite 的 ADBC 驱动程序

其他数据源#

可使用 pip install "pandas[hdf5, parquet, iceberg, feather, spss, excel]" 进行安装。

依赖项

最低版本

pip 扩展

注意

PyTables

3.10.1

hdf5

基于 HDF5 的读/写

zlib

hdf5

HDF5 的压缩

fastparquet

2024.11.0

Parquet 读/写(pyarrow 为默认)

pyarrow

13.0.0

parquet, feather

Parquet、ORC 和 feather 读/写

PyIceberg

0.8.1

iceberg

Apache Iceberg 读/写

pyreadstat

1.2.8

spss

SPSS 文件 (.sav) 读取

odfpy

1.4.1

excel

Open document format (.odf, .ods, .odt) 读/写

警告

  • 如果您想使用 read_orc(),强烈建议使用 conda 安装 pyarrow。如果 pyarrow 是从 pypi 安装的,read_orc() 可能会失败,并且 read_orc() 与 Windows 操作系统不兼容。

访问云数据#

可使用 pip install "pandas[fss, aws, gcp]" 进行安装。

依赖项

最低版本

pip 扩展

注意

fsspec

2024.10.0

fss, gcp, aws

处理除简单的本地和 HTTP 之外的文件(s3fs、gcsfs 的必需依赖项)。

gcsfs

2024.10.0

gcp

Google Cloud Storage 访问

s3fs

2024.10.0

aws

Amazon S3 访问

剪贴板#

可使用 pip install "pandas[clipboard]" 进行安装。

依赖项

最低版本

pip 扩展

注意

PyQt4/PyQt5

5.15.9

clipboard

剪贴板 I/O

qtpy

2.4.2

clipboard

剪贴板 I/O

注意

根据操作系统,可能需要安装系统级包。要在 Linux 上使用剪贴板,您的系统上必须安装 xclipxsel 的命令行工具之一。

压缩#

可使用 pip install "pandas[compression]" 进行安装。

依赖项

最低版本

pip 扩展

注意

Zstandard

0.19.0

compression

Zstandard 压缩

时区#

可使用 pip install "pandas[timezone]" 进行安装。

依赖项

最低版本

pip 扩展

注意

pytz

2024.2

timezone

替代 zoneinfo 的时区库。