2.3.3 版本新增内容 (2025 年 9 月 29 日)#
这些是 pandas 2.3.3 版本中的更改。有关包括其他 pandas 版本在内的完整变更日志,请参阅 发布说明。
Pandas 2.3.3 现在与 Python 3.14 兼容#
Pandas 2.3.3 是第一个与即将推出的 Python 3.14 版本兼容的 pandas 版本。在此版本中,将在所有平台上为常规 Python 3.14 上传 wheel 包,而为免费线程 Python 3.14 准备的 wheel 包仅适用于 Linux 和 macOS。
一如既往,请将发现的任何 bug 报告给我们 问题跟踪器
对 StringDtype 的改进和修复#
此版本的大部分更改都与 StringDtype 相关,该类型将在 pandas 3.0 中成为默认的字符串 dtype。有关更多详细信息,请参阅 pandas 3.0 的即将进行的更改。
改进#
更新
DataFrame.select_dtypes(),当指定include=["object"]以保持向后兼容性时,它将继续选择str列。在未来的版本中,此行为将被弃用,pandas 3+ 的代码应更新为使用include=["str"](GH 61916)支持
pathlib.Path对象和StringDtypeSeries 之间的/操作,这与对象 dtype Series 的工作方式类似 (GH 61940)
Bug 修复#
修复了在使用 Arrow 后端的 dtype 时,
Series.str.replace()使用命名捕获组(例如\g<name>)时会引发错误的 bug (GH 57636)修复了
Series.str.contains()、match()和fullmatch()使用编译后的正则表达式和自定义标志时的回归错误 (GH 62240)修复了 Arrow 后端的字符串 dtype 中
Series.str.match()和fullmatch()无法正确匹配带组的模式的 bug (GH 61072)修复了在
groupby()和sum()操作中,未观察到的类别导致结果为0而非空字符串""的 bug (GH 61909)修复了
Series.str.isdigit()对于由 PyArrow 支持的StringDtype无法正确识别 unicode 上标字符为数字的 bug (GH 61466)修复了比较一个
StringDtypeSeries 与混合对象时引发错误的 bug (GH 60228)修复了在使用 numpy ufunc 时,带有 Python 后端字符串数组会引发错误的 bug (GH 40800)
其他更改#
之前弃用的使用
Series.resample()和DataFrame.resample()结合PeriodIndex(以及 'convention' 关键字参数)的操作已恢复。现在可以再次支持使用PeriodIndex进行重采样,但在 pandas 3.0 中,一部分会返回错误结果的方法将引发错误 (GH 57033)
其他 bug 修复#
修复了
DataFrame.to_json()使用 datetime 列时的内存泄漏问题 (GH 62204)修复了
DataFrame.from_records()未正确初始化子类导致的回归错误 (GH 57008)当在 `copy_on_write` 选项下,对同质 DataFrame 的列进行子集划分后分配值时,
DataFrame.iloc()现在可以正确工作了 (GH 60309)
贡献者#
共有 15 人为本次发布贡献了补丁。名字旁有“+”号的人是首次贡献补丁。
邱志霖
Evgenii Mosikhin +
Ian Hunt-Isaak +
Joris Van den Bossche
Laurie O +
Lumberbot (aka Jack)
Matthew Roeschke
Nathan Goldbaum
Patrick Hoefler
Richard Shadrach
Scott Talbert
jbrockmendel
pandas 开发团队
ptth222 +
Álvaro Kothe +