快速入门#

安装#

使用 conda?

pandas 是 Anaconda 发行版的一部分,可以使用 Anaconda 或 Miniconda 安装

偏好 pip?

pandas 可以通过 pip 从 PyPI 安装。

需要深入说明?

安装特定版本?从源码安装?请查看高级安装页面。

pandas 简介#

当处理表格数据时,例如存储在电子表格或数据库中的数据,pandas 是适合您的工具。pandas 将帮助您探索、清洗和处理数据。在 pandas 中,数据表被称为 DataFrame

../_images/01_table_dataframe.svg

pandas 开箱即用地支持与多种文件格式或数据源(csv、excel、sql、json、parquet 等)的集成。从这些数据源导入数据由带有 read_* 前缀的函数提供。类似地,to_* 方法用于存储数据。

../_images/02_io_readwrite.svg

选择或筛选特定行和/或列?根据条件筛选数据?pandas 中提供了切片、选择和提取所需数据的方法。

../_images/03_subset_columns_rows.svg

pandas 利用 Matplotlib 的强大功能,开箱即用地提供数据绘图。您可以选择与您的数据相对应的图表类型(散点图、条形图、箱线图等)。

../_images/04_plot_overview.svg

无需遍历数据表的所有行来执行计算。对列的数据操作是逐元素进行的。基于其他列中的现有数据向 DataFrame 添加列是直接了当的。

../_images/05_newcolumn_2.svg

基本统计量(均值、中位数、最小值、最大值、计数等)易于计算。这些或自定义聚合可以应用于整个数据集、数据的滑动窗口,或按类别分组。后者也称为“分拆-应用-合并”方法。

../_images/06_groupby.svg

以多种方式更改数据表的结构。您可以将数据表从宽格式 melt() 为长格式/整洁格式,或从长格式 pivot() 为宽格式。内置聚合功能,可以通过一个命令创建数据透视表。

../_images/07_melt.svg

多个表可以按列和按行连接,因为提供了类似数据库的连接/合并操作来组合多个数据表。

../_images/08_concat_row.svg

pandas 对时间序列有很好的支持,并拥有一整套用于处理日期、时间以及时间索引数据的工具。

数据集不仅包含数值数据。pandas 提供了广泛的功能来清洗文本数据并从中提取有用信息。

来自…#

您熟悉其他用于处理表格数据的软件吗?了解与您已知软件相比,pandas 中等效的操作

R 编程语言提供了 data.frame 数据结构,并且有多个包,例如 tidyverse 使用和扩展 data.frame 以提供类似于 pandas 的便捷数据处理功能。

已经熟悉 SELECTGROUP BYJOIN 等操作?这些 SQL 操作中的大多数在 pandas 中都有等效项。

STATA 统计软件包中包含的 data set 对应于 pandas 的 DataFrame。许多从 STATA 熟悉的操作在 pandas 中都有等效项。

Excel 或其他电子表格程序的用户会发现许多概念可以转移到 pandas 中。

SAS 统计软件包也提供了与 pandas DataFrame 对应的 data set。此外,SAS 的向量化操作、筛选、字符串处理操作等在 pandas 中也有类似的功能。

教程#

要快速了解 pandas 的功能,请参阅 pandas 10 分钟入门

您还可以参考 pandas 备忘单,获取使用 pandas 处理数据的简洁指南。

社区提供了各种在线教程。部分资料收录在社区贡献的 社区教程 中。