可为空的布尔数据类型#

注意

BooleanArray 目前是实验性的。其 API 或实现可能会在没有警告的情况下发生变化。

使用 NA 值进行索引#

pandas 允许使用布尔数组中的 NA 值进行索引,这些值被视为 False

In [1]: s = pd.Series([1, 2, 3])

In [2]: mask = pd.array([True, False, pd.NA], dtype="boolean")

In [3]: s[mask]
Out[3]: 
0    1
dtype: int64

如果您希望保留 NA 值,可以使用 fillna(True) 手动填充它们。

In [4]: s[mask.fillna(True)]
Out[4]: 
0    1
2    3
dtype: int64

Kleene 逻辑运算#

arrays.BooleanArray 为逻辑运算(如 &(和)、|(或)和 ^(异或))实现了 Kleene 逻辑(有时称为三值逻辑)。

此表展示了每种组合的结果。这些运算是对称的,因此交换左右两侧不会影响结果。

表达式

结果

True & True

True

True & False

False

True & NA

NA

False & False

False

False & NA

False

NA & NA

NA

True | True

True

True | False

True

True | NA

True

False | False

False

False | NA

NA

NA | NA

NA

True ^ True

False

True ^ False

True

True ^ NA

NA

False ^ False

False

False ^ NA

NA

NA ^ NA

NA

当运算中存在 NA 时,只有当结果无法完全根据另一个输入确定时,输出值才是 NA。例如,True | NATrue,因为 True | TrueTrue | False 都 是 True。在这种情况下,我们实际上不需要考虑 NA 的值。

另一方面,True & NANA。结果取决于 NA 实际上是 True 还是 False,因为 True & TrueTrue,但 True & FalseFalse,所以我们无法确定输出。

这与 np.nan 在逻辑运算中的行为不同。pandas 将 np.nan 视为在输出中始终为 False

or

In [5]: pd.Series([True, False, np.nan], dtype="object") | True
Out[5]: 
0     True
1     True
2    False
dtype: bool

In [6]: pd.Series([True, False, np.nan], dtype="boolean") | True
Out[6]: 
0    True
1    True
2    True
dtype: boolean

and

In [7]: pd.Series([True, False, np.nan], dtype="object") & True
Out[7]: 
0     True
1    False
2    False
dtype: bool

In [8]: pd.Series([True, False, np.nan], dtype="boolean") & True
Out[8]: 
0     True
1    False
2     <NA>
dtype: boolean