关于 pandas #
发展历史 #
pandas 于 2008 年在 AQR Capital Management 开始开发。到 2009 年底,它已经 开源,并且今天仍然得到世界各地志同道合的社区的积极支持,他们贡献宝贵的时间和精力,帮助开源 pandas 成为可能。感谢 我们所有的贡献者。
自 2015 年以来,pandas 一直是 NumFOCUS 赞助的项目。这将有助于确保 pandas 作为世界一流的开源项目的发展成功。
时间表 #
- 2008:pandas 开始开发
- 2009:pandas 开源
- 2012:《Python for Data Analysis》第一版出版
- 2015:pandas 成为 NumFOCUS 赞助的项目
- 2018:首次线下核心开发者冲刺
库亮点 #
-
用于数据操作的快速高效的 DataFrame 对象,带有集成索引;
-
用于在内存数据结构和不同格式之间读取和写入数据的工具:CSV 和文本文件、Microsoft Excel、SQL 数据库以及快速的 HDF5 格式;
-
智能的数据对齐和集成的缺失数据处理:在计算中获得自动基于标签的对齐,并轻松将混乱的数据处理成有序的形式;
-
灵活的数据集重塑和透视;
-
智能的基于标签的切片、花式索引和大数据集的子集划分;
-
可以从数据结构中插入和删除列以实现大小可变性;
-
通过强大的分组依据引擎对数据进行聚合或转换,该引擎允许对数据集进行拆分-应用-合并操作;
-
高性能的数据集合并和连接;
-
分层轴索引提供了一种直观的方式来在较低维度的数据结构中处理高维度数据;
-
时间序列功能:日期范围生成和频率转换、移动窗口统计、日期移位和滞后。甚至可以创建特定域的时间偏移量,并且在不丢失数据的情况下连接时间序列;
-
性能高度优化,关键代码路径用 Cython 或 C 编写。
-
Python 结合 pandas 在各种学术和商业领域都有应用,包括金融、神经科学、经济学、统计学、广告、网络分析等。
使命 #
pandas 旨在成为用 Python 进行实际、真实世界数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大、最灵活的开源数据分析/操作工具。
愿景 #
一个数据分析和操作软件的世界,它
- 人人可及
- 用户免费使用和修改
- 灵活
- 强大
- 易于使用
- 快速
价值观 #
pandas 的核心是尊重和欢迎所有人,包括用户、贡献者和更广泛的社区。无论经验水平、性别、性别认同和表达、性取向、残疾、外表、体型、种族、民族、年龄、宗教或国籍如何。