开始#

安装#

使用 conda?

可以通过 conda-forge 中的 conda 安装 pandas。

偏好 pip?

可以通过 PyPI 中的 pip 安装 pandas。

更详细的说明?

安装特定版本?从源代码安装?请查看高级安装页面。

pandas 入门#

当处理表格数据时,例如存储在电子表格或数据库中的数据,pandas 是您的理想工具。pandas 将帮助您探索、清理和处理数据。在 pandas 中,数据表称为 DataFrame

../_images/01_table_dataframe.svg

pandas 原生支持与多种文件格式或数据源集成(csv、excel、sql、json、parquet 等)。从这些数据源导入数据的能力由前缀为 read_* 的函数提供。类似地,to_* 方法用于存储数据。

../_images/02_io_readwrite.svg

选择或过滤特定的行和/或列?根据特定条件过滤数据?pandas 提供了用于切片、选择和提取所需数据的方法。

../_images/03_subset_columns_rows.svg

pandas 利用 Matplotlib 的强大功能,开箱即用地为您的数据提供绘图功能。只需选择与您的数据相对应的图表类型(散点图、条形图、箱线图等)。

../_images/04_plot_overview.svg

无需循环遍历数据表的所有行来进行计算。列数据操作在 pandas 中是逐元素工作的。根据其他列中的现有数据向 DataFrame 添加列非常直接。

../_images/05_newcolumn_2.svg

可以轻松地跨 DataFrame 计算基本统计信息(均值、中位数、最小值、最大值、计数等)。这些,甚至自定义聚合,都可以应用于整个数据集、数据滑动窗口或按类别分组。后者也称为拆分-应用-合并方法。

../_images/06_groupby.svg
以多种方式更改数据表的结构。您可以使用 melt() 将数据从宽格式重塑为长且整洁的格式。使用 pivot()

从长格式转换为宽格式。通过内置的聚合功能,可以使用单个命令创建数据透视表。

../_images/07_melt.svg

可以使用 pandas 类似数据库的连接和合并操作,按列或按行串联多个表。

../_images/08_concat_row.svg

pandas 对时间序列提供了出色的支持,并拥有一套广泛的工具用于处理日期、时间和时间索引数据。

数据集通常包含的不仅仅是数值数据。pandas 提供了广泛的函数来清理文本数据并从中提取有用信息。

来自…#

您是否熟悉其他用于处理表格数据的软件?了解 pandas 与您已知的软件对应的操作。

R 编程语言提供了 data.frame 数据结构,以及 tidyverse 等包,它们使用并扩展 data.frame 以提供类似于 pandas 的便捷数据处理功能。

是否已熟悉 SELECTGROUP BYJOIN 等?许多 SQL 操作在 pandas 中都有对应的功能。

STATA 统计软件套件中包含的 data set 与 pandas 的 DataFrame 对应。STATA 中已知的许多操作在 pandas 中都有对应的功能。

Excel 或其他电子表格程序的 用户会发现许多概念都可以迁移到 pandas。

统计软件套件 SAS 使用 data set 结构,这与 pandas 的 DataFrame 非常相似。SAS 的矢量化操作,如过滤或字符串处理操作,在 pandas 中也有类似的功能。

教程#

要快速了解 pandas 的功能,请参阅 10 分钟掌握 pandas

您还可以参考 pandas 的 备忘单,以获得使用 pandas 处理数据的简洁指南。

社区产生了各种各样的在线教程。其中一些材料列在社区贡献的 社区教程 中。