关于 pandas
开发历史
2008 年,pandas 的开发始于 AQR Capital Management。到 2009 年底,它已经 开源,并且今天由来自世界各地的志同道合的个人组成的社区积极支持,他们贡献宝贵的时间和精力来帮助开源 pandas 成为可能。感谢 我们所有的贡献者。
自 2015 年以来,pandas 是一个 NumFOCUS 赞助项目。这将有助于确保 pandas 作为世界一流的开源项目成功开发。
时间线
- 2008: pandas 开发开始
- 2009: pandas 开源
- 2012: Python for Data Analysis 第一版出版
- 2015: pandas 成为 NumFOCUS 赞助项目
- 2018: 首次核心开发者线下聚会
库亮点
-
一个快速高效的 DataFrame 对象,用于数据操作,具有集成索引;
-
用于在内存数据结构和不同格式之间 读取和写入数据 的工具:CSV 和文本文件、Microsoft Excel、SQL 数据库以及快速 HDF5 格式;
-
智能 数据对齐 和 缺失数据 的集成处理:在计算中获得自动基于标签的对齐,并轻松地将杂乱的数据整理成有序的形式;
-
灵活的 重塑 和数据集合的透视;
-
智能基于标签的 切片、花式索引 和大型数据集的 子集;
-
可以从数据结构中插入和删除列以实现 大小可变性;
-
使用强大的 分组 引擎聚合或转换数据,允许对数据集进行拆分-应用-合并操作;
-
高性能数据合并和连接;
-
分层轴索引提供了一种直观的方式来处理低维数据结构中的高维数据;
-
时间序列功能:日期范围生成和频率转换、移动窗口统计、日期移位和滞后。甚至可以创建特定领域的时差并连接时间序列而不会丢失数据;
-
高度优化性能,关键代码路径使用Cython或C编写。
-
使用pandas的Python广泛应用于学术和商业领域,包括金融、神经科学、经济学、统计学、广告、网络分析等。
使命
pandas的目标是成为在 Python 中进行实际、真实世界数据分析的基本高级构建块。此外,它还具有成为任何语言中最强大、最灵活的开源数据分析/操作工具的更广泛目标。
愿景
一个数据分析和操作软件
- 人人可及
- 用户免费使用和修改
- 灵活
- 强大
- 易于使用
- 快速
价值观
是pandas的核心,尊重和欢迎所有人,包括用户、贡献者和更广泛的社区。无论经验水平、性别、性别认同和表达、性取向、残疾、个人外貌、体型、种族、民族、年龄、宗教或国籍。