安装#
pandas 开发团队通过以下方式正式分发 pandas 以供安装
可通过 conda-forge 使用 conda 包管理器安装。
可通过 PyPI 使用 pip 安装。
可通过 Github 从源代码安装。
注意
pandas 可能还可以从上述列表之外的其他来源安装,但这些来源不由 pandas 开发团队管理。
Python 版本支持#
请参阅 Python 支持策略。
安装 pandas#
使用 Conda 安装#
对于使用 Conda 包管理器的用户,可以从 conda-forge 频道安装 pandas。
conda install -c conda-forge pandas
建议使用 Miniforge 发行版 在您的系统上安装 Conda 包管理器。
此外,建议在虚拟环境中安装和运行 pandas。
conda create -c conda-forge -n name_of_my_env python pandas
# On Linux or MacOS
source activate name_of_my_env
# On Windows
activate name_of_my_env
提示
对于 Python 新手来说,安装 Python、pandas 以及构成 PyData 栈的包(如 SciPy、NumPy 和 Matplotlib)的最简单方法是使用 Anaconda,这是一个跨平台(Linux、macOS、Windows)的 Python 发行版,用于数据分析和科学计算。
但是,Anaconda 中的 pandas 不由 pandas 开发团队官方管理。
使用 pip 安装#
对于使用 pip 包管理器的用户,可以从 PyPI 安装 pandas。
pip install pandas
还可以安装带有可选依赖项集的 pandas 以启用某些功能。例如,安装带有用于读取 Excel 文件的可选依赖项的 pandas。
pip install "pandas[excel]"
完整的可选安装依赖项列表可在 依赖项部分 中找到。
此外,建议在虚拟环境中安装和运行 pandas,例如,使用 Python 标准库的 venv。
从源代码安装#
有关从 git 源代码树构建的完整说明,请参阅 贡献指南。如果您希望创建 pandas 开发环境,请进一步参阅 创建开发环境。
安装 pandas 的开发版本#
安装开发版本是
尝试将在下一个版本中发布的(即,最近合并到主分支的 pull-request 中的)新功能的最快方法。
检查您遇到的 bug 自上次发布以来是否已修复。
开发版本通常每天从 anaconda.org 的 PyPI 注册表上传到 scientific-python-nightly-wheels 索引。您可以通过运行以下命令来安装它。
pip install --pre --extra-index-url https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas
注意
安装开发版本可能需要卸载当前版本的 pandas。
pip uninstall pandas -y
运行测试套件#
如果 pandas 是 从源代码 安装的,运行 pytest pandas 将运行所有 pandas 的单元测试。
还可以使用 pandas 模块本身的 test() 函数来运行单元测试。运行测试所需的包可以使用 pip install "pandas[test]" 进行安装。
注意
测试失败不一定表示 pandas 安装有问题。
依赖项#
必需的依赖项#
pandas 需要以下依赖项。
包 |
最低支持版本 |
|---|---|
1.26.0 |
|
2.8.2 |
|
tzdata * |
/ |
* tzdata 仅在 Windows 和 Pyodide (Emscripten) 上需要。
通常,最低支持版本比主要或次要 pandas 版本发布日期晚约 2 年。
可选依赖项#
pandas 有许多可选依赖项,它们仅用于特定方法。例如,pandas.read_hdf() 需要 pytables 包,而 DataFrame.to_markdown() 需要 tabulate 包。如果未安装可选依赖项,当调用需要该依赖项的方法时,pandas 将引发 ImportError。
使用 pip,可以将可选的 pandas 依赖项作为可选的扩展(例如,pandas[performance, aws])安装或管理在文件中(例如 requirements.txt 或 pyproject.toml)。可以使用 pandas[all] 安装所有可选依赖项,并且下面各部分列出了特定的依赖项集。
通常,最低支持版本比主要或次要 pandas 版本发布日期晚约 1 年。旧版可选依赖项仍可能工作,但未经测试或不被支持。
性能依赖项(推荐)#
注意
强烈建议安装这些库,因为它们提供了速度提升,尤其是在处理大型数据集时。
可使用 pip install "pandas[performance]" 进行安装
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
2.10.2 |
performance |
通过使用多个核心以及智能分块和缓存来加速某些数值运算,从而实现巨大的速度提升。 |
|
1.4.2 |
performance |
通过使用专门的 cython 例程来加速某些类型的 |
|
0.60.0 |
performance |
用于接受 |
可视化#
可使用 pip install "pandas[plot, output-formatting]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
3.8.3 |
plot |
绘图库 |
|
3.1.3 |
output-formatting |
使用 DataFrame.style 进行条件格式化 |
|
0.9.0 |
output-formatting |
以 Markdown 友好格式打印(请参阅 tabulate) |
计算#
可使用 pip install "pandas[computation]" 进行安装。
Excel 文件#
可使用 pip install "pandas[excel]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
2.0.1 |
excel |
读取 xls 文件 |
|
3.2.0 |
excel |
写入 xlsx 文件 |
|
3.1.5 |
excel |
读取/写入 Excel 2010 xlsx/xlsm/xltx/xltm 文件 |
|
1.0.10 |
excel |
读取 xlsb 文件 |
|
0.3.0 |
excel |
读取 xls/xlsx/xlsm/xlsb/xla/xlam/ods 文件 |
|
1.4.1 |
excel |
读取/写入 OpenDocument 1.2 文件 |
HTML#
可使用 pip install "pandas[html]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
4.12.3 |
html |
read_html 的 HTML 解析器 |
|
1.1 |
html |
read_html 的 HTML 解析器 |
|
4.9.2 |
html |
read_html 的 HTML 解析器 |
使用顶层 read_html() 函数需要以下库的组合之一。
警告
如果您安装了 BeautifulSoup4,则必须安装 lxml 或 html5lib,或两者都安装。
read_html()在仅安装 BeautifulSoup4 时不工作。强烈建议您阅读 HTML 表格解析中的注意事项。它解释了有关这三个库的安装和使用的问题。
XML#
可使用 pip install "pandas[xml]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
5.3.0 |
xml |
read_xml 的 XML 解析器和 to_xml 的树构建器 |
SQL 数据库#
传统驱动程序可使用 pip install "pandas[postgresql, mysql, sql-other]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
2.0.36 |
postgresql, mysql, sql-other |
sqlite 以外数据库的 SQL 支持 |
|
2.9.10 |
postgresql |
sqlalchemy 的 PostgreSQL 引擎 |
|
1.1.1 |
mysql |
sqlalchemy 的 MySQL 引擎 |
|
1.2.0 |
postgresql |
PostgreSQL 的 ADBC 驱动程序 |
|
1.2.0 |
sql-other |
SQLite 的 ADBC 驱动程序 |
其他数据源#
可使用 pip install "pandas[hdf5, parquet, iceberg, feather, spss, excel]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
3.10.1 |
hdf5 |
基于 HDF5 的读/写 |
|
hdf5 |
HDF5 的压缩 |
||
2024.11.0 |
Parquet 读/写(pyarrow 为默认) |
||
13.0.0 |
parquet, feather |
Parquet、ORC 和 feather 读/写 |
|
0.8.1 |
iceberg |
Apache Iceberg 读/写 |
|
1.2.8 |
spss |
SPSS 文件 (.sav) 读取 |
|
1.4.1 |
excel |
Open document format (.odf, .ods, .odt) 读/写 |
警告
如果您想使用
read_orc(),强烈建议使用 conda 安装 pyarrow。如果 pyarrow 是从 pypi 安装的,read_orc()可能会失败,并且read_orc()与 Windows 操作系统不兼容。
访问云数据#
可使用 pip install "pandas[fss, aws, gcp]" 进行安装。
剪贴板#
可使用 pip install "pandas[clipboard]" 进行安装。
注意
根据操作系统,可能需要安装系统级包。要在 Linux 上使用剪贴板,您的系统上必须安装 xclip 或 xsel 的命令行工具之一。
压缩#
可使用 pip install "pandas[compression]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
0.19.0 |
compression |
Zstandard 压缩 |
时区#
可使用 pip install "pandas[timezone]" 进行安装。
依赖项 |
最低版本 |
pip 扩展 |
注意 |
|---|---|---|---|
2024.2 |
timezone |
替代 |