入门#

安装#

使用 conda?

pandas 是 Anaconda 发行版的一部分,可以使用 Anaconda 或 Miniconda 安装

喜欢使用 pip 吗?

pandas 可以通过 pip 从 PyPI 安装。

需要深入的安装说明吗?

安装特定版本?从源代码安装?请查看高级安装页面。

pandas 简介#

当处理表格数据(例如存储在电子表格或数据库中的数据)时,pandas 是您的最佳工具。pandas 将帮助您探索、清理和处理数据。在 pandas 中,数据表被称为 DataFrame

../_images/01_table_dataframe.svg

pandas 支持开箱即用的多种文件格式或数据源集成(csv、excel、sql、json、parquet 等)。从每个数据源导入数据由以 read_* 为前缀的函数提供。类似地,to_* 方法用于存储数据。

../_images/02_io_readwrite.svg

选择或过滤特定的行和/或列?根据条件过滤数据?pandas 中提供了用于切片、选择和提取所需数据的各种方法。

../_images/03_subset_columns_rows.svg

pandas 利用 Matplotlib 的强大功能,开箱即用地提供数据绘图功能。您可以根据数据选择图表类型(散点图、条形图、箱线图等)。

../_images/04_plot_overview.svg

无需遍历数据表的所有行来进行计算。对列进行的数据操作是按元素进行的。根据其他列中已有的数据,向 DataFrame 添加列非常简单。

../_images/05_newcolumn_2.svg

基本统计数据(平均值、中位数、最小值、最大值、计数等)很容易计算。这些统计数据或自定义聚合可以应用于整个数据集、数据的滑动窗口或按类别分组。后者也称为拆分-应用-合并方法。

../_images/06_groupby.svg

以多种方式更改数据表的结构。您可以使用 melt() 将数据表从宽格式转换为长格式/整洁格式,或使用 pivot() 将数据表从长格式转换为宽格式。内置聚合功能,只需一条命令即可创建透视表。

../_images/07_melt.svg

多个表格可以按列和按行进行连接,因为提供了类似数据库的联接/合并操作来组合多个数据表格。

../_images/08_concat_row.svg

pandas 对时间序列有很好的支持,并提供了一套广泛的工具来处理日期、时间和时间索引数据。

数据集不仅包含数值数据。pandas 提供了广泛的功能来清理文本数据并从中提取有用的信息。

来自…#

您是否熟悉其他用于操作表格数据的软件?了解与您已知软件相比的 pandas 等效操作

R 编程语言 提供了 data.frame 数据结构和多个包,例如 tidyverse 使用和扩展 data.frame 以提供类似于 pandas 的便捷数据处理功能。

已经熟悉 SELECTGROUP BYJOIN 等吗?这些 SQL 操作中的大多数在 pandas 中都有等效项。

STATA 统计软件套件中包含的 data set 对应于 pandas DataFrame。STATA 中的许多已知操作在 pandas 中都有等效项。

Excel 或其他电子表格程序的用户会发现许多概念可以转移到 pandas。

统计软件套件 SAS 也提供了与 pandas DataFrame 对应的 data set。 此外,SAS 的向量化操作、过滤、字符串处理操作等在 pandas 中也有类似的功能。

教程#

要快速了解 pandas 的功能,请参阅 10 分钟快速上手 pandas

您还可以参考 pandas 速查表,它提供了一个简洁的指南,用于使用 pandas 操作数据。

社区在线提供了各种各样的教程。一些材料列在社区贡献的 社区教程 中。