In [1]: import pandas as pd

本教程使用的数据

空气质量硝酸盐数据

本教程使用 \(NO_2\) 空气质量数据，该数据由 OpenAQ 提供，并使用 py-openaq 包下载。

数据集 air_quality_no2_long.csv 提供了巴黎、安特卫普和伦敦的测量站 FR04014、BETR801 和 London Westminster 的 \(NO_2\) 值。

原始数据

In [2]: air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv",
   ...:                               parse_dates=True)
   ...: 

In [3]: air_quality_no2 = air_quality_no2[["date.utc", "location",
   ...:                                    "parameter", "value"]]
   ...: 

In [4]: air_quality_no2.head()
Out[4]: 
                    date.utc location parameter  value
0  2019-06-21 00:00:00+00:00  FR04014       no2   20.0
1  2019-06-20 23:00:00+00:00  FR04014       no2   21.8
2  2019-06-20 22:00:00+00:00  FR04014       no2   26.5
3  2019-06-20 21:00:00+00:00  FR04014       no2   24.9
4  2019-06-20 20:00:00+00:00  FR04014       no2   21.4

空气质量颗粒物数据

本教程使用颗粒物小于 2.5 微米的空气质量数据，该数据由 OpenAQ 提供，并使用 py-openaq 包下载。

数据集 air_quality_pm25_long.csv 提供了巴黎、安特卫普和伦敦的测量站 FR04014、BETR801 和 London Westminster 的 \(PM_{25}\) 值。

原始数据

In [5]: air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv",
   ...:                                parse_dates=True)
   ...: 

In [6]: air_quality_pm25 = air_quality_pm25[["date.utc", "location",
   ...:                                      "parameter", "value"]]
   ...: 

In [7]: air_quality_pm25.head()
Out[7]: 
                    date.utc location parameter  value
0  2019-06-18 06:00:00+00:00  BETR801      pm25   18.0
1  2019-06-17 08:00:00+00:00  BETR801      pm25    6.5
2  2019-06-17 07:00:00+00:00  BETR801      pm25   18.5
3  2019-06-17 06:00:00+00:00  BETR801      pm25   16.0
4  2019-06-17 05:00:00+00:00  BETR801      pm25    7.5

如何组合来自多个表的数据#

连接对象#

我希望将 \(NO_2\) 和 \(PM_{25}\) 的测量数据合并到一个表中，这两个表具有相似的结构。

In [8]: air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

In [9]: air_quality.head()
Out[9]: 
                    date.utc location parameter  value
0  2019-06-18 06:00:00+00:00  BETR801      pm25   18.0
1  2019-06-17 08:00:00+00:00  BETR801      pm25    6.5
2  2019-06-17 07:00:00+00:00  BETR801      pm25   18.5
3  2019-06-17 06:00:00+00:00  BETR801      pm25   16.0
4  2019-06-17 05:00:00+00:00  BETR801      pm25    7.5

concat() 函数沿着一个轴（按行或按列）执行多个表的连接操作。

默认情况下，连接是沿着轴 0 进行的，因此结果表合并了输入表的行。让我们检查原始表和连接后的表的形状以验证操作

In [10]: print('Shape of the ``air_quality_pm25`` table: ', air_quality_pm25.shape)
Shape of the ``air_quality_pm25`` table:  (1110, 4)

In [11]: print('Shape of the ``air_quality_no2`` table: ', air_quality_no2.shape)
Shape of the ``air_quality_no2`` table:  (2068, 4)

In [12]: print('Shape of the resulting ``air_quality`` table: ', air_quality.shape)
Shape of the resulting ``air_quality`` table:  (3178, 4)

因此，结果表有 3178 = 1110 + 2068 行。

注意

axis 参数将出现在许多 pandas 方法中，这些方法可以沿着一个轴应用。一个 DataFrame 有两个对应的轴：第一个垂直向下穿过行（轴 0），第二个水平穿过列（轴 1）。大多数操作，如连接或汇总统计，默认是按行（轴 0）进行的，但也可以按列应用。

根据日期时间信息对表进行排序也说明了两个表的组合，其中 parameter 列定义了表的来源（来自表 air_quality_no2 的 no2 或来自表 air_quality_pm25 的 pm25）。

In [13]: air_quality = air_quality.sort_values("date.utc")

In [14]: air_quality.head()
Out[14]: 
                       date.utc            location parameter  value
2067  2019-05-07 01:00:00+00:00  London Westminster       no2   23.0
1003  2019-05-07 01:00:00+00:00             FR04014       no2   25.0
100   2019-05-07 01:00:00+00:00             BETR801      pm25   12.5
1098  2019-05-07 01:00:00+00:00             BETR801       no2   50.5
1109  2019-05-07 01:00:00+00:00  London Westminster      pm25    8.0

在这个特定示例中，数据提供的 parameter 列确保可以识别每个原始表。但并非总是如此。concat 函数提供了一个便捷的解决方案，即使用 keys 参数，添加一个额外的（分层）行索引。例如

In [15]: air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])

In [16]: air_quality_.head()
Out[16]: 
                         date.utc location parameter  value
PM25 0  2019-06-18 06:00:00+00:00  BETR801      pm25   18.0
     1  2019-06-17 08:00:00+00:00  BETR801      pm25    6.5
     2  2019-06-17 07:00:00+00:00  BETR801      pm25   18.5
     3  2019-06-17 06:00:00+00:00  BETR801      pm25   16.0
     4  2019-06-17 05:00:00+00:00  BETR801      pm25    7.5

注意

这些教程中尚未提及同时存在多个行/列索引的情况。分层索引或 MultiIndex 是 pandas 中用于分析高维数据的高级而强大的功能。

多重索引超出了本 pandas 介绍的范围。目前，请记住函数 reset_index 可用于将索引的任何级别转换为列，例如 air_quality.reset_index(level=0)

用户指南

欢迎在用户指南的高级索引部分深入了解多重索引的世界。

用户指南

有关表连接（按行和按列）的更多选项，以及如何使用 concat 定义其他轴上索引的逻辑（并集或交集），请参阅对象连接部分。

使用共同标识符连接表#

将由站点元数据表提供的站点坐标添加到测量表中的相应行。

警告

空气质量测量站坐标存储在数据文件 air_quality_stations.csv 中，该文件是使用 py-openaq 包下载的。

In [17]: stations_coord = pd.read_csv("data/air_quality_stations.csv")

In [18]: stations_coord.head()
Out[18]: 
  location  coordinates.latitude  coordinates.longitude
0  BELAL01              51.23619                4.38522
1  BELHB23              51.17030                4.34100
2  BELLD01              51.10998                5.00486
3  BELLD02              51.12038                5.02155
4  BELR833              51.32766                4.36226

注意

本示例中使用的站点（FR04014、BETR801 和 London Westminster）只是元数据表中列出的三个条目。我们只想将这三个站点的坐标添加到测量表中，每个坐标都对应于 air_quality 表中的行。

In [19]: air_quality.head()
Out[19]: 
                       date.utc            location parameter  value
2067  2019-05-07 01:00:00+00:00  London Westminster       no2   23.0
1003  2019-05-07 01:00:00+00:00             FR04014       no2   25.0
100   2019-05-07 01:00:00+00:00             BETR801      pm25   12.5
1098  2019-05-07 01:00:00+00:00             BETR801       no2   50.5
1109  2019-05-07 01:00:00+00:00  London Westminster      pm25    8.0

In [20]: air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

In [21]: air_quality.head()
Out[21]: 
                    date.utc  ... coordinates.longitude
0  2019-05-07 01:00:00+00:00  ...              -0.13193
1  2019-05-07 01:00:00+00:00  ...               2.39390
2  2019-05-07 01:00:00+00:00  ...               2.39390
3  2019-05-07 01:00:00+00:00  ...               4.43182
4  2019-05-07 01:00:00+00:00  ...               4.43182

[5 rows x 6 columns]

使用 merge() 函数，对于 air_quality 表中的每一行，都会从 air_quality_stations_coord 表中添加相应的坐标。两个表都有共同的 location 列，该列用作组合信息的键。通过选择 left 连接，只有 air_quality（左侧）表中可用的位置，即 FR04014、BETR801 和 London Westminster，最终会出现在结果表中。merge 函数支持多种连接选项，类似于数据库式操作。

将参数元数据表提供的参数完整描述和名称添加到测量表。

警告

空气质量参数元数据存储在数据文件 air_quality_parameters.csv 中，该文件是使用 py-openaq 包下载的。

In [22]: air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

In [23]: air_quality_parameters.head()
Out[23]: 
     id                                        description  name
0    bc                                       Black Carbon    BC
1    co                                    Carbon Monoxide    CO
2   no2                                   Nitrogen Dioxide   NO2
3    o3                                              Ozone    O3
4  pm10  Particulate matter less than 10 micrometers in...  PM10

In [24]: air_quality = pd.merge(air_quality, air_quality_parameters,
   ....:                        how='left', left_on='parameter', right_on='id')
   ....: 

In [25]: air_quality.head()
Out[25]: 
                    date.utc  ...   name
0  2019-05-07 01:00:00+00:00  ...    NO2
1  2019-05-07 01:00:00+00:00  ...    NO2
2  2019-05-07 01:00:00+00:00  ...    NO2
3  2019-05-07 01:00:00+00:00  ...  PM2.5
4  2019-05-07 01:00:00+00:00  ...    NO2

[5 rows x 9 columns]

与之前的示例相比，没有共同的列名。但是，air_quality 表中的 parameter 列和 air_quality_parameters_name 表中的 id 列都以通用格式提供了测量变量。这里使用 left_on 和 right_on 参数（而不是仅仅使用 on）来建立两个表之间的链接。

用户指南

pandas 也支持内连接、外连接和右连接。有关表的连接/合并的更多信息，请参阅用户指南中关于数据库样式表合并的部分。或者查看与 SQL 的比较页面。

记住

可以使用 concat 函数按列或按行连接多个表。
对于类似数据库的表合并/连接，请使用 merge 函数。

用户指南

有关各种组合数据表的功能的完整说明，请参阅用户指南。