2.0.1 版本新特性 (2023年4月24日)#
以下是 pandas 2.0.1 中的更改。有关包括其他 pandas 版本的完整变更日志,请参阅发布说明。
修复的回归#
修复了从字典构造子类化 Series 时的回归 (GH 52445)
修复了
SeriesGroupBy.agg()
在使用分类数据、多重分组、as_index=False
和聚合列表进行分组时失败的回归 (GH 52760)修复了
DataFrame.pivot()
更改输入对象Index
名称的回归 (GH 52629)修复了
DataFrame.resample()
在 DataFrame 没有列时引发异常的回归 (GH 52484)修复了
DataFrame.sort_values()
在DataFrame
已排序且ignore_index=True
时未重置索引的回归 (GH 52553)修复了
MultiIndex.isin()
对Generator
引发TypeError
的回归 (GH 52568)修复了
Series.describe()
对于只有一个元素的扩展 dtypeSeries
显示RuntimeWarning
的回归 (GH 52515)修复了当
DataFrame
的DataFrame.columns
是RangeIndex
且新键是可哈希但不是标量时,向DataFrame
添加新列的回归 (GH 52652)
错误修复#
Series.dt.days
中会导致int32
天数溢出的错误 (GH 52391)arrays.DatetimeArray
构造函数中,当传递非纳秒 numpy datetime 数组时返回不正确单位的错误 (GH 52555)ArrowExtensionArray
中,当从包含 numpyNaT
的数据构造时,持续时间 dtype 溢出的错误 (GH 52843)Series.dt.round()
中,当传递与Series
分辨率相同或更高分辨率的freq
时,会引发ZeroDivisionError
的错误 (GH 52761)Series.median()
中,当使用ArrowDtype
时返回近似中位数的错误 (GH 52679)api.interchange.from_dataframe()
中,不必要地对分类 dtypes 引发异常的错误 (GH 49889)api.interchange.from_dataframe()
中,不必要地对大型字符串 dtypes 引发异常的错误 (GH 52795)pandas.testing.assert_series_equal()
中,当check_dtype=False
时,仍会因 datetime 或 timedelta 类型分辨率不同而引发异常的错误 (GH 52449)read_csv()
中,当dtype_backend="pyarrow"
且设置了parse_dates
时,将 PyArrow datetime 转换为 NumPy 导致性能瓶颈的错误 (GH 52546)to_datetime()
和to_timedelta()
中,尝试转换具有ArrowDtype
的数值数据时出现的错误 (GH 52425)to_numeric()
中,当errors='coerce'
和dtype_backend='pyarrow'
与ArrowDtype
数据一起使用时出现的错误 (GH 52588)ArrowDtype.__from_arrow__()
中,不遵守显式给定 dtype 的错误 (GH 52533)DataFrame.describe()
中,不遵守include
和exclude
中的ArrowDtype
的错误 (GH 52570)DataFrame.max()
及相关函数中,将不同Timestamp
分辨率始终转换为纳秒的错误 (GH 52524)Series.describe()
中,当使用pyarrow.float64
类型时,不对数值数据返回ArrowDtype
的错误 (GH 52427)Series.dt.tz_localize()
中,错误地本地化带有ArrowDtype
的时间戳的错误 (GH 52677)算术运算中,带有单位的
np.datetime64
和np.timedelta64
NaT
标量始终返回纳秒分辨率的错误 (GH 52295)ArrowDtype
和 numpy 掩码类型(例如"boolean"
)之间的逻辑和比较操作中的错误 (GH 52625)修复了
merge()
在一侧为ArrowDtype
而另一侧为 NumPy dtype 时合并的错误 (GH 52406)修复了
Series.to_numpy()
在null[pyarrow]
dtype 下的段错误 (GH 52443)
其他#
由空字典创建的
DataFrame
的columns
之前是object
dtype。现在是RangeIndex
(GH 52404)由空字典创建的
Series
的index
之前是object
dtype。现在是RangeIndex
(GH 52404)为具有
pyarrow.string
的ArrowDtype
实现了Series.str.split()
和Series.str.rsplit()
(GH 52401)为具有
pyarrow.string
的ArrowDtype
实现了大多数str
访问器方法 (GH 52401)现在,当提供一个在
api.types.is_scalar()
中测试为False
的非整数可哈希键时,RangeIndex.get_loc()
会引发KeyError
,就像Index.get_loc()
那样。之前它会引发InvalidIndexError
(GH 52652)。
贡献者#
共有 20 人为此版本贡献了补丁。名字旁有“+”的人是首次贡献补丁。
Alex Malins +
Chris Carini +
Dea María Léon
Joris Van den Bossche
Luke Manley
Marc Garcia
Marco Edward Gorelli
MarcoGorelli
Matthew Roeschke
MeeseeksMachine
Natalia Mokeeva
Nirav +
Pandas Development Team
Patrick Hoefler
Richard Shadrach
Stefanie Molin
Terji Petersen
Thomas +
Thomas Li
yonashub