Pandas:功能强大的Python数据分析工具包
那是什么?
Pandas 是一个Python包,它提供了快速、灵活和富有表现力的数据结构,旨在使处理“关系”或“标记”数据变得既简单又直观。旨在成为做实、做实挡路的基础性高水平建设。真实世界Python中的数据分析。此外,它还有更广泛的目标,即成为以任何语言提供的最强大、最灵活的开源数据分析/操作工具它已经在朝着这个目标前进了很久。
主要功能
以下是熊猫擅长的几件事:
- 轻松处理missing data(表示为
NaN
,NA
,或NaT
)在浮点和非浮点数据中 - 大小可变:列可以是inserted and
deleted来自DataFrame和高维对象 - 自动和显式data alignment:对象可以显式地与一组标签对齐,或者用户可以简单地忽略标签并让
Series
,DataFrame
等在计算中自动对齐数据。 - 强大、灵活group by对数据集执行拆分-应用-合并操作的功能,用于聚合和转换数据
- 搞定easy to convert将其他Python和NumPy数据结构中的参差不齐、索引不同的数据转换为DataFrame对象
- 基于智能标签的slicing,fancy
indexing,以及subsetting大型数据集的 - 直观merging和joining数据集
- 灵活性reshaping和pivoting数据集的
- Hierarchical轴的标签(每个刻度可以有多个标签)
- 用于从以下位置加载数据的强大IO工具flat files(csv和分隔),Excel files,databases,以及从超高速数据库保存/加载数据HDF5 format
- Time series-特定功能:日期范围生成和频率转换、移动窗口统计、日期移动和滞后
在哪里买到它?
源代码目前托管在GitHub上,地址为:https://github.com/pandas-dev/pandas
最新发布版本的二进制安装程序可在Python
Package Index (PyPI)和OnConda
# conda
conda install pandas
# or PyPI
pip install pandas
依赖项
- NumPy – Adds support for large, multi-dimensional arrays, matrices and high-level mathematical functions to operate on these arrays
- python-dateutil – Provides powerful extensions to the standard datetime module
- pytz – Brings the Olson tz database into Python which allows accurate and cross platform timezone calculations
请参阅full installation instructions有关必需、建议和可选依赖项的最低支持版本
从源安装
要从源头安装熊猫,您需要Cython除了上面的正常依赖关系之外。Cython可以从PyPI安装:
pip install cython
在pandas
目录(与您在克隆git存储库后找到此文件的目录相同),执行:
python setup.py install
或用于安装在development mode:
python -m pip install -e . --no-build-isolation --no-use-pep517
如果你有make
,您也可以使用make develop
要运行相同的命令,请执行以下操作
或者另选地
python setup.py develop
请参阅的完整说明installing from source
许可证
文档
官方文档托管在PyData.org上:https://pandas.pydata.org/pandas-docs/stable
背景
工作于pandas
开始于AQR(一家量化对冲基金)于2008年成立,此后一直在积极发展
获取帮助
对于用法问题,最好的去处是StackOverflow此外,一般问题和讨论也可以在pydata mailing list
研讨与发展
在这次回购中,大多数开发讨论都是在gihub上进行的。此外,pandas-dev mailing list也可用于专门的讨论或设计问题,并且Gitter channel可用于解决与快速开发相关的问题
欢迎所有贡献、错误报告、错误修复、文档改进、增强和想法
有关如何做出贡献的详细概述,请参阅contributing guide还有一个overview关于GitHub
如果您只是想开始使用PANDA代码库,请导航到GitHub “issues” tab开始研究有趣的问题。下面列出了许多问题Docs和good first issue在那里你可以开始
您还可以对问题进行分类,这可能包括重现错误报告,或要求提供重要信息,如版本号或重现说明。如果您想要开始对问题进行分类,一种简单的开始方法是subscribe to pandas on CodeTriage
或者,通过使用熊猫,你可能有了自己的想法,或者正在文档中寻找一些东西,并认为“这可以改进”。你可以做些什么!
您可以随时在mailing list或打开Gitter
作为这个项目的贡献者和维护者,你们应该遵守熊猫的行为准则。有关更多信息,请访问:Contributor Code of Conduct