版本 0.20.2 (2017 年 6 月 4 日)#

这是 0.20.x 系列中的一个次要错误修复版本,包含一些小的回归修复、错误修复和性能改进。我们建议所有用户升级到此版本。

增强功能#

  • 解锁对 pytables 中支持的额外压缩类型的访问:‘blosc:blosclz, ‘blosc:lz4’, ‘blosc:lz4hc’, ‘blosc:snappy’, ‘blosc:zlib’, ‘blosc:zstd’ (GH 14478)

  • Series 提供了 to_latex 方法 (GH 16180)

  • 添加了一个新的 groupby 方法 GroupBy.ngroup(),与现有的 GroupBy.cumcount() 并行,用于返回组的顺序 (GH 11642);详见 此处

性能改进#

  • 修复了使用列表式索引时的性能回归问题 (GH 16285)

  • 修复了 MultiIndexes 的性能回归问题 (GH 16319, GH 16346)

  • 改进了使用标量参数调用 .clip() 的性能 (GH 15400)

  • 改进了使用分类分组器进行 groupby 操作的性能 (GH 16413)

  • 改进了 MultiIndex.remove_unused_levels() 的性能 (GH 16556)

错误修复#

  • 禁用了在某些 Windows 环境下检测终端大小时关于“tput: terminal attributes: No such device or address”的警告。此修复仅适用于 Python 3 (GH 16496)

  • 使用 pathlib.Pathpy.path.local 对象进行 io 操作时存在错误 (GH 16291)

  • 对两个相同的 MultiIndex 调用 Index.symmetric_difference() 时存在错误,导致 TypeError (GH 13490)

  • DataFrame.update() 中使用 overwrite=FalseNaN values 时存在错误 (GH 15593)

  • 现在向 read_csv() 传递无效引擎时会引发更具描述性的 ValueError,而不是 UnboundLocalError>。(GH 16511)

  • 对元组数组调用 unique() 时存在错误 (GH 16519)

  • 在设置 labels 时调用 cut() 时存在错误,导致标签顺序不正确 (GH 16459)

  • 修复了与 IPython 6.0 选项卡补全的兼容性问题,该问题会在 Categoricals 上显示弃用警告 (GH 16409)

转换#

  • to_numeric() 中存在错误,空数据输入会导致解释器段错误 (GH 16302)

  • 比较操作将 DataFrame 广播到 Series 时,屏蔽 numpy 警告 (GH 16378, GH 16306)

索引#

  • 在单级索引上调用 DataFrame.reset_index(level=) 时存在错误 (GH 16263)

  • 使用单调(但不严格单调)索引进行部分字符串索引时存在错误,错误地反转了切片边界 (GH 16515)

  • MultiIndex.remove_unused_levels() 中存在错误,该方法不会返回一个与原始 MultiIndex 相等的 MultiIndex。(GH 16556)

IO#

  • 在读取以空格分隔的文本文件时,如果传递了 comment 参数,read_csv() 中存在错误 (GH 16472)

  • read_csv() 中存在错误,当 usecols 的长度正确但包含不存在的列时,未引发异常 (GH 14671)

  • 一个错误会导致不必要地强制导入剪贴板相关函数,可能在启动时引发导入错误 (GH 16288)

  • HTML 渲染空 DataFrame 时引发 IndexError 的错误 (GH 15953)

  • 在 Python 2.x 中,当使用 C 引擎处理 tarfile 对象输入时,read_csv() 中存在引发错误的错误 (GH 16530)

  • DataFrame.to_html() 忽略了 index_names 参数的错误 (GH 16493)

  • pd.read_hdf() 为索引名称返回 numpy 字符串的错误 (GH 13492)

  • HDFStore.select_as_multiple() 中未遵守 start/stop 参数的错误 (GH 16209)

绘图#

  • 当使用单列和列表式 color 参数时,DataFrame.plot 中存在错误 (GH 3486)

  • plot 中,DatetimeIndex 中的 NaT 导致 Timestamp.min 的错误 (GH 12405)

  • DataFrame.boxplot 中,非分组箱线图未遵守 figsize 关键字参数的错误 (GH 11959)

GroupBy/重采样/滚动窗口#

  • 在空 DataFrame 上创建基于时间的滚动窗口时存在错误 (GH 15819)

  • 使用偏移窗口调用 rolling.cov() 时存在错误 (GH 16058)

  • 对整数进行聚合时,.resample().groupby() 中存在错误 (GH 16361)

稀疏#

  • scipy.sparse.dok_matrix 构造 SparseDataFrame 时存在错误 (GH 16179)

重塑#

  • MultiIndex 列中包含未排序的级别时,DataFrame.stack 中存在错误 (GH 16323)

  • pd.wide_to_long() 中,当 i 不是唯一标识符时未引发错误的错误 (GH 16382)

  • 使用元组列表调用 Series.isin(..) 时存在错误 (GH 16394)

  • 构建包含全 NaT 列的混合 dtypes 的 DataFrame 时存在错误。(GH 16395)

  • 对不可调用属性进行聚合时,DataFrame.agg()Series.agg() 中存在错误 (GH 16405)

数值#

  • .interpolate() 中存在错误,当传递 limit=None (默认值) 时,limit_direction 未被遵守 (GH 16282)

分类#

  • 修复了当两个分类都未排序时,比较操作会考虑类别顺序的错误 (GH 16014)

其他#

  • 在包含非唯一索引的情况下,使用空列表调用 DataFrame.drop() 时存在错误 (GH 16270)

贡献者#

本次发布共有 34 人贡献了补丁。名字旁带有“+”的人是首次贡献补丁。

  • Aaron Barber +

  • Andrew 亮 +

  • Becky Sweger +

  • Christian Prinoth +

  • Christian Stade-Schuldt +

  • DSM

  • Erik Fredriksen +

  • Hugues Valois +

  • Jeff Reback

  • Jeff Tratner

  • JimStearns206 +

  • John W. O’Brien

  • Joris Van den Bossche

  • JosephWagner +

  • Keith Webber +

  • Mehmet Ali “Mali” Akmanalp +

  • Pankaj Pandey

  • Patrick Luo +

  • Patrick O’Melveny +

  • Pietro Battiston

  • RobinFiveWords +

  • Ryan Hendrickson +

  • SimonBaron +

  • Tom Augspurger

  • WBare +

  • bpraggastis +

  • chernrick +

  • chris-b1

  • economy +

  • gfyoung

  • jaredsnyder +

  • keitakurita +

  • linebp

  • lloydkirk +