In [1]: import pandas as pd

本教程使用的数据

泰坦尼克号数据
本教程使用泰坦尼克号数据集，以 CSV 格式存储。数据包含以下数据列
- PassengerId: 每位乘客的 ID。
- Survived: 指示乘客是否幸存。0 表示是，1 表示否。
- Pclass: 3 种船票等级之一：1 等舱、2 等舱和 3 等舱。
- Name: 乘客姓名。
- Sex: 乘客性别。
- Age: 乘客年龄（岁）。
- SibSp: 同船的兄弟姐妹或配偶人数。
- Parch: 同船的父母或子女人数。
- Ticket: 乘客船票号。
- Fare: 票价。
- Cabin: 乘客舱位号。
- Embarked: 登船港口。
查看原始数据
```
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
```

如何操作文本数据#

将所有姓名字符转换为小写。

In [4]: titanic["Name"].str.lower()
Out[4]: 
                              braund, mr. owen harris
    cumings, mrs. john bradley (florence briggs th...
                               heikkinen, miss. laina
         futrelle, mrs. jacques heath (lily may peel)
                             allen, mr. william henry
                             ...                        
                              montvila, rev. juozas
                       graham, miss. margaret edith
           johnston, miss. catherine helen "carrie"
                              behr, mr. karl howell
                                dooley, mr. patrick
Name: Name, Length: 891, dtype: object

要将 Name 列中的每个字符串转换为小写，请选择 Name 列（参见数据选择教程），添加 str 访问器并应用 lower 方法。这样，每个字符串都会按元素进行转换。

与时间序列教程中拥有 dt 访问器的日期时间对象类似，在使用 str 访问器时，可以使用许多专门的字符串方法。这些方法通常与单个元素的等效内置字符串方法名称匹配，但会按元素（还记得按元素计算吗？）应用于列中的每个值。

通过提取逗号之前的部分，创建一个新列 Surname，其中包含乘客的姓氏。

In [5]: titanic["Name"].str.split(",")
Out[5]: 
                           [Braund,  Mr. Owen Harris]
    [Cumings,  Mrs. John Bradley (Florence Briggs ...
                            [Heikkinen,  Miss. Laina]
      [Futrelle,  Mrs. Jacques Heath (Lily May Peel)]
                          [Allen,  Mr. William Henry]
                             ...                        
                           [Montvila,  Rev. Juozas]
                    [Graham,  Miss. Margaret Edith]
        [Johnston,  Miss. Catherine Helen "Carrie"]
                           [Behr,  Mr. Karl Howell]
                             [Dooley,  Mr. Patrick]
Name: Name, Length: 891, dtype: object

使用 Series.str.split() 方法，每个值都将作为包含 2 个元素的列表返回。第一个元素是逗号之前的部分，第二个元素是逗号之后的部分。

In [6]: titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

In [7]: titanic["Surname"]
Out[7]: 
0         Braund
1        Cumings
2      Heikkinen
3       Futrelle
4          Allen
         ...    
886     Montvila
887       Graham
888     Johnston
889         Behr
890       Dooley
Name: Surname, Length: 891, dtype: object

由于我们只对代表姓氏的第一部分（元素 0）感兴趣，我们可以再次使用 str 访问器并应用 Series.str.get() 来提取相关部分。实际上，这些字符串函数可以连接起来，一次性组合多个函数！

查看用户指南

有关提取字符串部分的更多信息，请参阅用户指南中关于拆分和替换字符串的部分。

提取泰坦尼克号上女伯爵的乘客数据。

In [8]: titanic["Name"].str.contains("Countess")
Out[8]: 
    False
    False
    False
    False
    False
       ...  
  False
  False
  False
  False
  False
Name: Name, Length: 891, dtype: bool

In [9]: titanic[titanic["Name"].str.contains("Countess")]
Out[9]: 
     PassengerId  Survived  Pclass  ... Cabin Embarked  Surname
759          760         1       1  ...   B77        S   Rothes

[1 rows x 13 columns]

(对她的故事感兴趣？请看 维基百科！)

字符串方法 Series.str.contains() 检查 Name 列中的每个值是否包含单词 Countess，并为每个值返回 True（Countess 是姓名的一部分）或 False（Countess 不是姓名的一部分）。此输出可用于使用数据子集教程中引入的条件（布尔）索引来子选择数据。由于泰坦尼克号上只有一位女伯爵，我们得到了一行结果。

注意

字符串支持更强大的提取功能，因为 Series.str.contains() 和 Series.str.extract() 方法接受正则表达式，但这超出了本教程的范围。

查看用户指南

有关提取字符串部分的更多信息，请参阅用户指南中关于字符串匹配和提取的部分。

泰坦尼克号上哪位乘客的名字最长？
```
In [10]: titanic["Name"].str.len()
Out[10]: 
0      23
1      51
2      22
3      44
4      24
       ..
886    21
887    28
888    40
889    21
890    19
Name: Name, Length: 891, dtype: int64
```
要获取最长的名字，我们首先需要获取 Name 列中每个名字的长度。通过使用 pandas 字符串方法，Series.str.len() 函数将单独应用于每个名字（按元素）。
```
In [11]: titanic["Name"].str.len().idxmax()
Out[11]: 307
```
接下来，我们需要获取表格中名字长度最长的对应位置，最好是索引标签。idxmax() 方法正是为此而生。它不是字符串方法，而是应用于整数，因此不需要使用 str。
```
In [12]: titanic.loc[titanic["Name"].str.len().idxmax(), "Name"]
Out[12]: 'Penasco y Castellana, Mrs. Victor de Satode (Maria Josefa Perez de Soto y Vallejo)'
```
根据行索引名称（307）和列（Name），我们可以使用子集化教程中引入的 loc 运算符进行选择。

在“Sex”列中，将“male”的值替换为“M”，将“female”的值替换为“F”。

In [13]: titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

In [14]: titanic["Sex_short"]
Out[14]: 
0      M
1      F
2      F
3      F
4      M
      ..
886    M
887    F
888    F
889    M
890    M
Name: Sex_short, Length: 891, dtype: object

虽然 replace() 不是字符串方法，但它提供了一种方便的方式，可以使用映射或词汇表来转换特定值。它需要一个 dictionary 来定义映射 {from : to}。

警告

还有一个 replace() 方法可用于替换特定的字符集。但是，当有多个值的映射时，这将变得

titanic["Sex_short"] = titanic["Sex"].str.replace("female", "F")
titanic["Sex_short"] = titanic["Sex_short"].str.replace("male", "M")

这将变得繁琐且容易出错。想象一下（或者自己尝试一下），如果这两个语句以相反的顺序应用会发生什么……

记住

字符串方法通过 str 访问器可用。
字符串方法按元素工作，可用于条件索引。
replace 方法是一种根据给定字典转换值的便捷方法。

查看用户指南

在用户指南中关于处理文本数据的页面中提供了完整概述。