版本 0.11.0 (2013年4月22日)#

这是 0.10.1 版的一个主要发布，包含了许多新功能和增强，以及大量的错误修复。数据选择（Selecting Data）的方法增加了不少，且数据类型（Dtype）支持现已成熟。此外，还有一些重要的 API 更改，长期使用 pandas 的用户应密切关注。

文档中新增了 pandas 十分钟入门一节，主要面向新用户。

文档中新增了指南（Cookbook）一节，收录了 pandas 中一系列有用的技巧（我们欢迎贡献！）。

现在有几个库是推荐依赖项

选择选项#

从 0.11.0 版本开始，为了支持更明确的基于位置的索引，对象选择功能增加了一些用户请求的特性。pandas 现在支持三种类型的多轴索引。

.loc 严格基于标签，当未找到项目时将引发 KeyError，允许的输入包括：
- 单个标签，例如 5 或 'a'（请注意，5 被解释为索引的*标签*。此用法不是索引沿线的整数位置）
- 标签列表或数组，例如 ['a', 'b', 'c']
- 带有标签的切片对象，例如 'a':'f'（请注意，与通常的 Python 切片相反，起始和结束都包含在内！）
- 布尔数组
更多信息请参阅通过标签选择
.iloc 严格基于整数位置（从轴的 0 到 length-1），当请求的索引超出范围时将引发 IndexError。允许的输入包括：
- 整数，例如 5
- 整数列表或数组，例如 [4, 3, 0]
- 带有整数的切片对象，例如 1:7
- 布尔数组
更多信息请参阅通过位置选择
.ix 支持整数和基于标签的混合访问。它主要是基于标签的，但会回退到整数位置访问。.ix 是最通用的，将支持 .loc 和 .iloc 的任何输入，并支持浮点标签方案。.ix 在处理混合位置和基于标签的层次索引时特别有用。

由于在 .ix 中使用整数切片时，其行为取决于切片是按位置解释还是按标签解释，因此通常最好明确使用 .iloc 或 .loc。

更多信息请参阅高级索引和高级分层索引。

选择废弃项#

从 0.11.0 版本开始，这些方法可能会在未来版本中被废弃。

irow
icol
iget_value

有关替代方案，请参阅通过位置选择一节。

Dtypes（数据类型）#

数值型 Dtype 将会传播并可以在 DataFrame 中共存。如果传递了 Dtype（无论是通过 dtype 关键字直接传递，还是通过 ndarray 或 Series 传递），那么它将在 DataFrame 操作中被保留。此外，不同的数值型 Dtype 将不会合并。以下示例将让您初尝其效果。

In [1]: df1 = pd.DataFrame(np.random.randn(8, 1), columns=['A'], dtype='float32')

In [2]: df1
Out[2]: 
          A
0  0.469112
1 -0.282863
2 -1.509058
3 -1.135632
4  1.212112
5 -0.173215
6  0.119209
7 -1.044236

In [3]: df1.dtypes
Out[3]: 
A    float32
dtype: object

In [4]: df2 = pd.DataFrame({'A': pd.Series(np.random.randn(8), dtype='float16'),
   ...:                     'B': pd.Series(np.random.randn(8)),
   ...:                     'C': pd.Series(range(8), dtype='uint8')})
   ...: 

In [5]: df2
Out[5]: 
          A         B  C
0 -0.861816 -0.424972  0
1 -2.105469  0.567020  1
2 -0.494873  0.276232  2
3  1.072266 -1.087401  3
4  0.721680 -0.673690  4
5 -0.706543  0.113648  5
6 -1.040039 -1.478427  6
7  0.271973  0.524988  7

In [6]: df2.dtypes
Out[6]: 
A    float16
B    float64
C      uint8
dtype: object

# here you get some upcasting
In [7]: df3 = df1.reindex_like(df2).fillna(value=0.0) + df2

In [8]: df3
Out[8]: 
          A         B    C
0 -0.392704 -0.424972  0.0
1 -2.388332  0.567020  1.0
2 -2.003932  0.276232  2.0
3 -0.063367 -1.087401  3.0
4  1.933792 -0.673690  4.0
5 -0.879758  0.113648  5.0
6 -0.920830 -1.478427  6.0
7 -0.772263  0.524988  7.0

In [9]: df3.dtypes
Out[9]: 
A    float32
B    float64
C    float64
dtype: object

Dtype 转换#

这是最低公分母向上转型，意味着您将获得可以容纳所有类型的 Dtype。

In [10]: df3.values.dtype
Out[10]: dtype('float64')

转换

In [11]: df3.astype('float32').dtypes
Out[11]: 
A    float32
B    float32
C    float32
dtype: object

混合转换

In [12]: df3['D'] = '1.'

In [13]: df3['E'] = '1'

In [14]: df3.convert_objects(convert_numeric=True).dtypes
Out[14]:
A    float32
B    float64
C    float64
D    float64
E      int64
dtype: object

# same, but specific dtype conversion
In [15]: df3['D'] = df3['D'].astype('float16')

In [16]: df3['E'] = df3['E'].astype('int32')

In [17]: df3.dtypes
Out[17]:
A    float32
B    float64
C    float64
D    float16
E      int32
dtype: object

强制日期类型转换（并在非日期类型时设置 NaT）

In [18]: import datetime

In [19]: s = pd.Series([datetime.datetime(2001, 1, 1, 0, 0), 'foo', 1.0, 1,
   ....:                pd.Timestamp('20010104'), '20010105'], dtype='O')
   ....:

In [20]: s.convert_objects(convert_dates='coerce')
Out[20]:
0   2001-01-01
1          NaT
2          NaT
3          NaT
4   2001-01-04
5   2001-01-05
dtype: datetime64[ns]

Dtype 陷阱#

平台陷阱

从 0.11.0 版本开始，DataFrame/Series 的构建将默认使用 int64 和 float64 Dtype，无论平台如何。这与早期版本的 pandas 相比并非显着变化。但是，如果您指定 Dtype，它们将被遵守 (GH 2837)。

以下操作都将导致 int64 Dtype

In [21]: pd.DataFrame([1, 2], columns=['a']).dtypes
Out[21]:
a    int64
dtype: object

In [22]: pd.DataFrame({'a': [1, 2]}).dtypes
Out[22]:
a    int64
dtype: object

In [23]: pd.DataFrame({'a': 1}, index=range(2)).dtypes
Out[23]:
a    int64
dtype: object

请记住，在 32 位平台上，DataFrame(np.array([1,2])) 将导致 int32！

向上转型陷阱

对整数类型数据执行索引操作很容易将数据向上转型。在不引入 nans 的情况下，输入数据的 Dtype 将被保留。

In [24]: dfi = df3.astype('int32')

In [25]: dfi['D'] = dfi['D'].astype('int64')

In [26]: dfi
Out[26]:
  A  B  C  D  E
0  0  0  0  1  1
1 -2  0  1  1  1
2 -2  0  2  1  1
3  0 -1  3  1  1
4  1  0  4  1  1
5  0  0  5  1  1
6  0 -1  6  1  1
7  0  0  7  1  1

In [27]: dfi.dtypes
Out[27]:
A    int32
B    int32
C    int32
D    int64
E    int32
dtype: object

In [28]: casted = dfi[dfi > 0]

In [29]: casted
Out[29]:
    A   B    C  D  E
0  NaN NaN  NaN  1  1
1  NaN NaN  1.0  1  1
2  NaN NaN  2.0  1  1
3  NaN NaN  3.0  1  1
4  1.0 NaN  4.0  1  1
5  NaN NaN  5.0  1  1
6  NaN NaN  6.0  1  1
7  NaN NaN  7.0  1  1

In [30]: casted.dtypes
Out[30]:
A    float64
B    float64
C    float64
D      int64
E      int32
dtype: object

而浮点型 Dtype 保持不变。

In [31]: df4 = df3.copy()

In [32]: df4['A'] = df4['A'].astype('float32')

In [33]: df4.dtypes
Out[33]:
A    float32
B    float64
C    float64
D    float16
E      int32
dtype: object

In [34]: casted = df4[df4 > 0]

In [35]: casted
Out[35]:
          A         B    C    D  E
0       NaN       NaN  NaN  1.0  1
1       NaN  0.567020  1.0  1.0  1
2       NaN  0.276232  2.0  1.0  1
3       NaN       NaN  3.0  1.0  1
4  1.933792       NaN  4.0  1.0  1
5       NaN  0.113648  5.0  1.0  1
6       NaN       NaN  6.0  1.0  1
7       NaN  0.524988  7.0  1.0  1

In [36]: casted.dtypes
Out[36]:
A    float32
B    float64
C    float64
D    float16
E      int32
dtype: object

日期时间转换#

DataFrame（或 Series）中的 datetime64[ns] 列允许使用 np.nan 来表示一个 nan 值，此外还有传统的 NaT（非时间）。这允许以通用方式方便地设置 nan 值。此外，当传入日期时间类对象时，默认创建 datetime64[ns] 列（此更改是在 0.10.1 中引入的）(GH 2809, GH 2810)

In [12]: df = pd.DataFrame(np.random.randn(6, 2), pd.date_range('20010102', periods=6),
   ....:                   columns=['A', ' B'])
   ....: 

In [13]: df['timestamp'] = pd.Timestamp('20010103')

In [14]: df
Out[14]: 
                   A         B  timestamp
2001-01-02  0.404705  0.577046 2001-01-03
2001-01-03 -1.715002 -1.039268 2001-01-03
2001-01-04 -0.370647 -1.157892 2001-01-03
2001-01-05 -1.344312  0.844885 2001-01-03
2001-01-06  1.075770 -0.109050 2001-01-03
2001-01-07  1.643563 -1.469388 2001-01-03

# datetime64[ns] out of the box
In [15]: df.dtypes.value_counts()
Out[15]: 
float64          2
datetime64[s]    1
Name: count, dtype: int64

# use the traditional nan, which is mapped to NaT internally
In [16]: df.loc[df.index[2:4], ['A', 'timestamp']] = np.nan

In [17]: df
Out[17]: 
                   A         B  timestamp
2001-01-02  0.404705  0.577046 2001-01-03
2001-01-03 -1.715002 -1.039268 2001-01-03
2001-01-04       NaN -1.157892        NaT
2001-01-05       NaN  0.844885        NaT
2001-01-06  1.075770 -0.109050 2001-01-03
2001-01-07  1.643563 -1.469388 2001-01-03

将 datetime64[ns] 转换为 object 时，会隐式地将 NaT 转换为 np.nan

In [18]: import datetime

In [19]: s = pd.Series([datetime.datetime(2001, 1, 2, 0, 0) for i in range(3)])

In [20]: s.dtype
Out[20]: dtype('<M8[ns]')

In [21]: s[1] = np.nan

In [22]: s
Out[22]: 
0   2001-01-02
1          NaT
2   2001-01-02
dtype: datetime64[ns]

In [23]: s.dtype
Out[23]: dtype('<M8[ns]')

In [24]: s = s.astype('O')

In [25]: s
Out[25]: 
0    2001-01-02 00:00:00
1                    NaT
2    2001-01-02 00:00:00
dtype: object

In [26]: s.dtype
Out[26]: dtype('O')

API 变更#

为索引添加了 to_series() 方法，以便于创建索引器 (GH 3275)

HDFStore

添加了 select_column 方法，用于从表中选择单个列作为 Series。

废弃了 unique 方法，可通过 select_column(key,column).unique() 复制其功能。

append 方法的 min_itemsize 参数现在将自动为传入的键创建 data_columns

增强功能#

在某些情况下，df.to_csv() 的性能提高了多达 10 倍。(GH 3059)

Numexpr 现在是推荐依赖项，用于加速某些类型的数值和布尔运算。

Bottleneck 现在是推荐依赖项，用于加速某些类型的 nan 操作。
HDFStore
支持类似于 read_csv/to_csv 的 read_hdf/to_hdf API
In [27]: df = pd.DataFrame({'A': range(5), 'B': range(5)})

In [28]: df.to_hdf('store.h5', key='table', append=True)

In [29]: pd.read_hdf('store.h5', 'table', where=['index > 2'])
Out[29]: 
   A  B
3  3  3
4  4  4
提供从存储中点属性访问 get，例如 store.df == store['df']

新增了关键字 iterator=boolean 和 chunksize=number_in_a_chunk，以支持对 select 和 select_as_multiple 的迭代 (GH 3076)
您现在可以像从有序时间序列中选择时间戳一样，从无序时间序列中选择时间戳 (GH 2437)
您现在可以像从 Series 中选择一样，使用字符串从具有日期类型索引的 DataFrame 中进行选择 (GH 3070)
In [30]: idx = pd.date_range("2001-10-1", periods=5, freq='M')

In [31]: ts = pd.Series(np.random.rand(len(idx)), index=idx)

In [32]: ts['2001']
Out[32]:
2001-10-31    0.117967
2001-11-30    0.702184
2001-12-31    0.414034
Freq: M, dtype: float64

In [33]: df = pd.DataFrame({'A': ts})

In [34]: df['2001']
Out[34]:
                   A
2001-10-31  0.117967
2001-11-30  0.702184
2001-12-31  0.414034
Squeeze 可以从对象中移除长度为 1 的维度。
>>> p = pd.Panel(np.random.randn(3, 4, 4), items=['ItemA', 'ItemB', 'ItemC'],
...              major_axis=pd.date_range('20010102', periods=4),
...              minor_axis=['A', 'B', 'C', 'D'])
>>> p
<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 4 (minor_axis)
Items axis: ItemA to ItemC
Major_axis axis: 2001-01-02 00:00:00 to 2001-01-05 00:00:00
Minor_axis axis: A to D

>>> p.reindex(items=['ItemA']).squeeze()
                   A         B         C         D
2001-01-02  0.926089 -2.026458  0.501277 -0.204683
2001-01-03 -0.076524  1.081161  1.141361  0.479243
2001-01-04  0.641817 -0.185352  1.824568  0.809152
2001-01-05  0.575237  0.669934  1.398014 -0.399338

>>> p.reindex(items=['ItemA'], minor=['B']).squeeze()
2001-01-02   -2.026458
2001-01-03    1.081161
2001-01-04   -0.185352
2001-01-05    0.669934
Freq: D, Name: B, dtype: float64
在 pd.io.data.Options 中，

修复了在已过有效期后尝试获取当月数据时的错误。

现在使用 lxml 抓取 HTML 而不是 BeautifulSoup（lxml 更快）。

当调用创建期权买卖权（calls and puts）的方法时，会自动创建新的实例变量。这适用于当前月份，实例变量简单地表示为 calls 和 puts。对于未来的到期月份，也同样适用，并将实例变量保存为 callsMMYY 或 putsMMYY，其中 MMYY 分别表示期权到期的月份和年份。

Options.get_near_stock_price 现在允许用户指定要获取相关期权数据的月份。

Options.get_forward_data 现在支持可选的关键字参数 near 和 above_below。这允许用户指定是否只返回与当前股票价格接近的期权的远期数据。这只是从 Options.get_near_stock_price 获取数据，而不是从 Options.get_xxx_data() 获取 (GH 2758)。

时间序列图中现在显示光标坐标信息。

添加了选项 display.max_seq_items，用于控制每个序列美观打印（pprinting）的元素数量。(GH 2979)

添加了选项 display.chop_threshold，用于控制小数值的显示。(GH 2739)

添加了选项 display.max_info_rows，以防止对超过 100 万行（可配置）的帧计算 verbose_info。(GH 2807, GH 2918)

value_counts() 现在接受“normalize”参数，用于生成归一化直方图。(GH 2710)。

DataFrame.from_records 现在不仅接受字典，还接受 collections.Mapping ABC 的任何实例。

添加了选项 display.mpl_style，为绘图提供更简洁的视觉风格。基于 https://gist.github.com/huyng/816622 (GH 3075)。

在数值运算中将布尔值视为整数（值 1 和 0）。(GH 2641)

to_html() 现在接受一个可选的“escape”参数，用于控制保留 HTML 字符转义（默认启用），并转义 &，以及 < 和 >。(GH 2919)

请参阅完整的发布说明或 GitHub 上的问题跟踪器以获取完整列表。

贡献者#

共有 50 人为本次发布贡献了补丁。名字旁边带有“+”的人是首次贡献补丁。

Adam Greenhall +
Alvaro Tejero-Cantero +
Andy Hayden
Brad Buran +
Chang She
Chapman Siu +
Chris Withers +
Christian Geier +
Christopher Whelan
Damien Garaud
Dan Birken
Dan Davison +
Dieter Vandenbussche
Draženo Lučanin +
Dražen Lučanin +
Garrett Drapala
Illia Polosukhin +
James Casbon +
Jeff Reback
Jeremy Wagner +
Jonathan Chambers +
K.-Michael Aye
Karmel Allison +
Loïc Estève +
Nicholaus E. Halecky +
Peter Prettenhofer +
Phillip Cloud +
Robert Gieseke +
Skipper Seabold
Spencer Lyon
Stephen Lin +
Thierry Moisan +
Thomas Kluyver
Tim Akinbo +
Vytautas Jancauskas
Vytautas Jančauskas +
Wes McKinney
Will Furnass +
Wouter Overmeire
anomrake +
davidjameshumphreys +
dengemann +
dieterv77 +
jreback
lexual +
stephenwlin +
thauck +
vytas +
waitingkuo +
y-p