关于 pandas
开发历史
2008年,pandas 在 AQR Capital Management 开始开发。到2009年底,它已经开源,今天由全球志同道合的个人社区积极支持,他们贡献宝贵的时间和精力,使开源 pandas 成为可能。感谢所有贡献者。
自2015年以来,pandas 是 NumFOCUS 的赞助项目。这将有助于确保 pandas 作为世界一流开源项目的成功发展。
时间线
- 2008:pandas 开始开发
- 2009:pandas 开源
- 2012:《利用 Python 进行数据分析》第一版出版
- 2015:pandas 成为 NumFOCUS 赞助项目
- 2018:首次线下核心开发者冲刺
库亮点
-
用于数据操作的快速高效的 DataFrame 对象,集成了索引功能;
-
用于在内存数据结构和不同格式之间读写数据的工具:CSV 和文本文件、Microsoft Excel、SQL 数据库以及快速的 HDF5 格式;
-
智能的数据对齐和集成的缺失数据处理:在计算中实现自动基于标签的对齐,轻松将杂乱数据处理成有序形式;
-
灵活的数据集重塑和透视;
-
对大型数据集进行智能的基于标签的切片、花式索引和子集化;
-
数据结构中的列可以插入和删除,以实现大小可变性;
-
使用强大的**分组**引擎对数据进行聚合或转换,允许在数据集上进行拆分-应用-合并操作;
-
高性能的数据集合并和连接;
-
分层轴索引提供了一种直观的方式,可以在较低维度的结构中处理高维数据;
-
**时间序列**功能:日期范围生成和频率转换、移动窗口统计、日期偏移和滞后。甚至可以创建特定领域的时间偏移,并在不丢失数据的情况下连接时间序列;
-
高度**性能优化**,关键代码路径使用 Cython 或 C 编写。
-
使用 pandas 的 Python 在广泛的**学术和商业**领域得到应用,包括金融、神经科学、经济学、统计学、广告、网络分析等。
使命
pandas 旨在成为在 Python 中进行实际、真实世界数据分析的基础高级构建块。此外,它还有一个更广泛的目标,即成为任何语言中最强大、最灵活的开源数据分析/处理工具。
愿景
一个数据分析和处理软件的未来是
- 人人可及
- 用户可自由使用和修改
- 灵活
- 强大
- 易于使用
- 快速
价值观
尊重并欢迎所有人,包括用户、贡献者和更广泛的社区,是 pandas 的核心。不分经验水平、性别、性别认同和表达、性取向、残疾、个人外貌、体型、种族、民族、年龄、宗教或国籍。