数据-科学-IPython-笔记本
索引
- deep-learning
- scikit-learn
- statistical-inference-scipy
- pandas
- matplotlib
- numpy
- python-data
- kaggle-and-business-analyses
- spark
- mapreduce-python
- amazon web services
- command lines
- misc
- notebook-installation
- credits
- contributing
- contact-info
- license
深度学习
演示深度学习功能的IPython笔记本
张量流教程
其他TensorFlow教程:
- pkmital/tensorflow_tutorials
- nlintz/TensorFlow-Tutorials
- alrojo/tensorflow-tutorial
- BinRoot/TensorFlow-Book
- tuanavu/tensorflow-basic-tutorials
笔记本电脑 | 描述 |
---|---|
tsf-basics | 在TensorFlow中学习基本操作,TensorFlow是Google提供的各种感知和语言理解任务的库 |
tsf-linear | 在TensorFlow中实现线性回归 |
tsf-logistic | 在TensorFlow中实现Logistic回归 |
tsf-nn | 在TensorFlow中实现最近邻居 |
tsf-alex | 在TensorFlow中实现AlexNet |
tsf-cnn | 卷积神经网络在TensorFlow中的实现 |
tsf-mlp | 在TensorFlow中实现多层感知器 |
tsf-rnn | 递归神经网络在TensorFlow中的实现 |
tsf-gpu | 了解TensorFlow中的基本多GPU计算 |
tsf-gviz | 了解TensorFlow中的图形可视化 |
tsf-lviz | 了解TensorFlow中的损耗可视化 |
张量流练习
笔记本电脑 | 描述 |
---|---|
tsf-not-mnist | 通过为TensorFlow中的培训、开发和测试创建带有格式化数据集的Pickle,了解简单的数据管理 |
tsf-fully-connected | 在TensorFlow中使用Logistic回归和神经网络逐步训练更深更精确的模型 |
tsf-regularization | 通过训练全连通网络对TensorFlow中的notMNIST字符进行分类来探索正则化技术 |
tsf-convolutions | 在TensorFlow中创建卷积神经网络 |
tsf-word2vec | 在TensorFlow中对Text8数据训练跳格模型 |
tsf-lstm | 在TensorFlow中对Text8数据训练LSTM字符模型 |
Theano-教程
笔记本电脑 | 描述 |
---|---|
theano-intro | Theano简介,它允许您高效地定义、优化和计算涉及多维数组的数学表达式。它可以使用GPU并执行高效的符号微分 |
theano-scan | 学习扫描,这是一种在Theano图中执行循环的机制 |
theano-logistic | 在Theano中实现Logistic回归 |
theano-rnn | 递归神经网络在Theano中的实现 |
theano-mlp | 在Theano中实现多层感知器 |
Keras-教程
笔记本电脑 | 描述 |
---|---|
角膜 | KERAS是一个用Python编写的开源神经网络库。它可以在TensorFlow或Theano上运行 |
setup | 了解教程目标以及如何设置Kera环境 |
intro-deep-learning-ann | 介绍使用KERAS和人工神经网络(ANN)进行深度学习 |
theano | 通过使用权重矩阵和梯度了解Theano |
keras-otto | 通过观看卡格尔·奥托挑战赛了解凯拉斯 |
ann-mnist | 基于KERAS的MNIST人工神经网络的简单实现 |
conv-nets | 使用KERAS了解卷积神经网络(CNN) |
conv-net-1 | 使用KERA识别MNIST中的手写数字-第1部分 |
conv-net-2 | 使用KERA识别MNIST中的手写数字-第2部分 |
keras-models | 将预先培训的型号(如VGG16、VGG19、ResNet50和Inception v3)与KERA配合使用 |
auto-encoders | 了解有关KERAS自动编码器的信息 |
rnn-lstm | 使用KERAS了解递归神经网络(RNN) |
lstm-sentence-gen | 了解与KERA配合使用长短期内存(LSTM)网络的RNN |
深度学习-其他
笔记本电脑 | 描述 |
---|---|
deep-dream | 基于Caffe的计算机视觉程序,使用卷积神经网络来查找和增强图像中的图案 |
科学工具包-学习
演示SCRICKIT学习功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
intro | 介绍笔记本到SCRICKIT-学习。Scikit-Learning添加了对大型多维数组和矩阵的Python支持,以及对这些数组进行操作的高级数学函数库的大型库 |
knn | 在SCRICKIT-LEARN中实现k-近邻 |
linear-reg | 在SCRICKIT-LEARCH中实现线性回归 |
svm | 在SCRKIT-LEARN中实现带核和不带核的支持向量机分类器 |
random-forest | 在SCRICKIT-LEARN中实现随机森林分类器和回归器 |
k-means | 在SCRICIT-LEARN中实现k-均值聚类 |
pca | 主成分分析在SCRICIT-LEARCH中的实现 |
gmm | 在SCRICIT-LEARN中实现高斯混合模型 |
validation | 在SCRICKIT-LEARN中实现验证和模型选择 |
统计推理法
演示使用SciPy功能进行统计推断的IPython笔记本
笔记本电脑 | 描述 |
---|---|
尖刺的 | SciPy是构建在Python的Numpy扩展上的数学算法和便利函数的集合。它为用户提供用于操作和可视化数据的高级命令和类,从而大大增强了交互式Python会话的功能 |
effect-size | 通过分析男性和女性的身高差异,探索量化效应大小的统计数据。使用行为危险因素监测系统(BRFSS)的数据来估计美国成年女性和男性的平均身高和标准偏差 |
sampling | 利用BRFSS数据分析美国男女平均体重探索随机抽样 |
hypothesis | 通过分析头胎婴儿与其他婴儿的差异来探索假设检验 |
熊猫
演示熊猫功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
pandas | 用Python编写的用于数据操作和分析的软件库。提供用于操作数值表和时间序列的数据结构和操作 |
github-data-wrangling | 通过分析中的GitHub数据,了解如何加载、清理、合并和要素工程Viz 回购 |
Introduction-to-Pandas | 熊猫简介 |
Introducing-Pandas-Objects | 了解熊猫对象 |
Data Indexing and Selection | 了解有关熊猫中的数据索引和选择的信息 |
Operations-in-Pandas | 了解有关在熊猫中操作数据的信息 |
Missing-Values | 了解有关处理熊猫中丢失的数据的信息 |
Hierarchical-Indexing | 了解有关熊猫中的分层索引的信息 |
Concat-And-Append | 了解有关组合数据集的信息:在熊猫中合并和追加 |
Merge-and-Join | 了解有关组合数据集的信息:在熊猫中合并和连接 |
Aggregation-and-Grouping | 了解有关在熊猫中聚合和分组的信息 |
Pivot-Tables | 了解有关熊猫中的透视表的信息 |
Working-With-Strings | 了解有关熊猫中的矢量化字符串操作的信息 |
Working-with-Time-Series | 了解有关在熊猫中使用时间序列的信息 |
Performance-Eval-and-Query | 了解高性能熊猫:熊猫中的eval()和query() |
Matplotlib
演示matplotlib功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
matplotlib | Python 2D绘图库,以各种硬拷贝格式和跨平台交互环境生成出版物质量数据 |
matplotlib-applied | 将matplotlib可视化应用于Kaggle比赛以进行探索性数据分析。了解如何创建条形图、直方图、子图2格网、归一化图、散点图、子图和核密度估计图 |
Introduction-To-Matplotlib | Matplotlib简介 |
Simple-Line-Plots | 了解有关Matplotlib中的简单线条图的信息 |
Simple-Scatter-Plots | 了解有关Matplotlib中的简单散点图的信息 |
Errorbars.ipynb | 了解有关在Matplotlib中可视化错误的信息 |
Density-and-Contour-Plots | 了解Matplotlib中的密度和等高线绘图 |
Histograms-and-Binnings | 了解有关Matplotlib中的直方图、二进制和密度的信息 |
Customizing-Legends | 了解有关在Matplotlib中自定义地块图例的信息 |
Customizing-Colorbars | 了解有关在Matplotlib中自定义色带的信息 |
Multiple-Subplots | 了解有关Matplotlib中的多个子图的信息 |
Text-and-Annotation | 了解有关Matplotlib中的文本和注记的信息 |
Customizing-Ticks | 了解有关在Matplotlib中自定义刻度的信息 |
Settings-and-Stylesheets | 了解有关自定义Matplotlib的信息:配置和样式表 |
Three-Dimensional-Plotting | 了解有关在Matplotlib中进行三维打印的信息 |
Geographic-Data-With-Basemap | 了解有关在Matplotlib中使用底图的地理数据的信息 |
Visualization-With-Seaborn | 了解有关海运可视化的信息 |
麻木的
演示NumPy功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
numpy | 添加了对大型多维数组和矩阵的Python支持,以及对这些数组进行运算的大型高级数学函数库 |
Introduction-to-NumPy | NumPy简介 |
Understanding-Data-Types | 了解有关Python中的数据类型的信息 |
The-Basics-Of-NumPy-Arrays | 了解NumPy阵列的基础知识 |
Computation-on-arrays-ufuncs | 了解有关NumPy数组的计算:泛函 |
Computation-on-arrays-aggregates | 了解有关聚合的信息:NumPy中的最小值、最大值以及介于两者之间的所有内容 |
Computation-on-arrays-broadcasting | 了解有关数组计算的信息:在NumPy中广播 |
Boolean-Arrays-and-Masks | 了解有关NumPy中的比较、掩码和布尔逻辑的信息 |
Fancy-Indexing | 了解NumPy中的奇特索引 |
Sorting | 了解有关在NumPy中对数组进行排序的信息 |
Structured-Data-NumPy | 了解结构化数据:NumPy的结构化数组 |
Python-Data
IPython笔记本,演示面向数据分析的Python功能
笔记本电脑 | 描述 |
---|---|
data structures | 使用元组、列表、字典、集学习Python基础知识 |
data structure utilities | 学习Python操作,如切片、范围、xrange、二等分、排序、排序、反转、枚举、压缩、列表理解 |
functions | 了解更高级的Python功能:函数作为对象、lambda函数、闭包、*args、**kwargs curying、生成器、生成器表达式、itertools |
datetime | 了解如何使用Python日期和时间:datetime、strftime、strptime、timeDelta |
logging | 了解有关使用RotatingFileHandler和TimedRotatingFileHandler进行Python日志记录的信息 |
pdb | 了解如何使用交互式源代码调试器在Python中进行调试 |
unit tests | 了解如何在Python中使用NOSE单元测试进行测试 |
Kaggle-and-Business分析
中使用的IPython笔记本kaggle竞争和业务分析
笔记本电脑 | 描述 |
---|---|
titanic | 预测泰坦尼克号上的生还者。学习数据清理、探索性数据分析和机器学习 |
churn-analysis | 预测客户流失。练习逻辑回归、梯度增强分类器、支持向量机、随机森林和k近邻。包括对念力矩阵、ROC图、特征重要性、预测概率和校准/识别的讨论 |
电光
演示电光和HDFS功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
spark | 内存集群计算框架,对于某些应用程序速度最高可提高100倍,并且非常适合机器学习算法 |
hdfs | 在大型群集中跨计算机可靠地存储非常大的文件 |
MapReduce-Python
演示使用mrjob功能的Hadoop MapReduce的IPython笔记本
笔记本电脑 | 描述 |
---|---|
mapreduce-python | 在Python中运行MapReduce作业,在本地或Hadoop群集上执行作业。演示Python代码中的Hadoop流以及单元测试和mrjob用于分析Elastic MapReduce上的Amazon S3存储桶日志的配置文件。Disco是另一个基于python的替代方案。 |
AWS
演示Amazon Web服务(AWS)和AWS工具功能的IPython笔记本
另请查看:
- SAWS:增强型AWS命令行界面(CLI)
- Awesome AWS:库、开源Repos、指南、博客和其他资源的精选列表
笔记本电脑 | 描述 |
---|---|
boto | 针对Python的官方AWS SDK |
s3cmd | 通过命令行与S3交互 |
s3distcp | 组合较小的文件,并通过接受模式和目标文件将它们聚合在一起。S3DistCp还可用于将大量数据从S3传输到您的Hadoop群集 |
s3-parallel-put | 将多个文件并行上传到S3 |
redshift | 充当建立在大规模并行处理(MPP)技术之上的快速数据仓库 |
kinesis | 通过每秒处理数千个数据流的能力实时流式传输数据 |
lambda | 运行代码以响应事件,自动管理计算资源 |
命令
IPython笔记本,演示Linux、Git等的各种命令行
笔记本电脑 | 描述 |
---|---|
linux | 类UNIX且大多兼容POSIX的计算机操作系统。磁盘使用情况、拆分文件、grep、sed、curl、查看正在运行的进程、终端语法突出显示和Vim |
anaconda | 发布用于大规模数据处理、预测分析和科学计算的Python编程语言,旨在简化包管理和部署 |
ipython notebook | 基于Web的交互式计算环境,您可以在其中将代码执行、文本、数学、绘图和富媒体组合到单个文档中 |
git | 强调速度、数据完整性并支持分布式非线性工作流的分布式修订控制系统 |
ruby | 用于与AWS命令行和Jekyll交互,Jekyll是可托管在GitHub页面上的博客框架 |
jekyll | 简单、支持博客的静电站点生成器,适用于个人、项目或组织站点。呈现Markdown或Textile and Liquid模板,并生成一个完整的静电网站,准备好由Apache HTTP Server、NGINX或其他Web服务器提供服务 |
pelican | 基于Python的Jekyll替代方案 |
django | 高级Python Web框架,鼓励快速开发和干净、实用的设计。它对共享报告/分析和博客很有用。较轻的替代方案包括Pyramid,Flask,Tornado,以及Bottle |
杂项
演示各种功能的IPython笔记本
笔记本电脑 | 描述 |
---|---|
regex | 数据争论中有用的正则表达式小抄 |
algorithmia | Algorithmia是一个算法市场。本笔记本展示了4种不同的算法:人脸检测、内容摘要、潜在狄利克雷分配和光学字符识别 |
笔记本-安装
python
Anaconda是Python编程语言的免费发行版,用于大规模数据处理、预测分析和科学计算,旨在简化包管理和部署
按照说明进行安装Anaconda或者更轻的miniconda
设备-设置
有关设置数据分析开发环境的详细说明、脚本和工具,请参阅dev-setup回购
跑步-笔记本
要查看交互式内容或修改IPython笔记本中的元素,必须首先克隆或下载存储库,然后再运行笔记本。有关IPython笔记本的更多信息可以找到here.
$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook
使用Python 2.7.x测试的笔记本电脑
学分
- Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython韦斯·麦金尼(Wes McKinney)著
- PyCon 2015 Scikit-learn Tutorial杰克·范德普拉斯(Jack Vanderplas)著
- Python Data Science Handbook杰克·范德普拉斯(Jack Vanderplas)著
- Parallel Machine Learning with scikit-learn and IPython奥利维尔·格里塞尔(Olivier Grisel)著
- Statistical Interference Using Computational Methods in Python艾伦·唐尼(Allen Downey)著
- TensorFlow Examples艾梅里克·达米恩(Aymeric Damien)著
- TensorFlow Tutorials作者:Parag K Mital
- TensorFlow Tutorials内森·林茨(Nathan Lintz)著
- TensorFlow Tutorials亚历山大·R·约翰逊(Alexander R Johansen)著
- TensorFlow Book尼尚特·舒克拉(Nishant Shukla)著
- Summer School 2015作者:Mila-UdeM
- Keras tutorials瓦莱里奥·马吉奥(Valerio Maggio)著
- Kaggle
- Yhat Blog
贡献
欢迎投稿!有关错误报告或请求,请submit an issue
联系方式-信息
请随时与我联系,讨论任何问题、问题或评论
- 电子邮件:donne.martin@gmail.com
- 推特:@donne_martin
- GitHub:donnemartin
- LinkedIn:donnemartin
- 网站:donnemartin.com
许可证
这个存储库包含各种内容;有些是由Donne Martin开发的,有些是来自第三方的。第三方内容在这些方提供的许可下分发
由Donne Martin开发的内容按照以下许可证分发:
我在开放源码许可下向您提供此存储库中的代码和资源。因为这是我的个人存储库,您获得的我的代码和资源的许可证来自我,而不是我的雇主(Facebook)
Copyright 2015 Donne Martin
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.