标签归档：spark

Pytorch+spark 进行大规模预测

2021年11月27日 Python实用宝典留下评论

虽然深度学习日益盛行，但目前spark还不支持深度学习算法。虽然也有相关库sparktorch能够将spark和pytorch结合起来，但是使用发现并非那么好用，而且此库目前活跃度较低，不方便debug。因此，本地训练深度学习模型并部署到spark中是一种有效的利用深度学习进行大规模预测的方法。

将pytorch模型嵌入部署到spark中进行大规模预测主要包括三步：

1.利用spark进行特征工程预处理，以保证训练集和测试集特征处理一致；

第一二步都比较简单，这里省去。主要对第三步进行说明。

模型分发（broadcast）分两种情况，第一种是简单可通过nn.Sequential定义的模型。对于这种情况可以，模型可以直接用。如下：

# 生成测试数据
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=50000, n_features=100, random_state=0)
df = pd.DataFrame(X)
df['label'] = np.random.randint(2,size=(50000))
df1 = spark.createDataFrame(df)
df1 = df1.withColumn('features', Func.array([col(f"{i}") for i in range(0, 100)])).repartition(1000)

# 创建模型并进行预测
%spark2_1.pyspark
import torch.nn as nn

network = nn.Sequential(
    nn.Linear(100, 2560),
    nn.ReLU(),
    nn.Linear(2560, 2560),
    nn.ReLU(),
    nn.Linear(2560, 2)
    #nn.Softmax(dim=1)
)

class network(nn.Module):
    def __init__(self):
        super(network, self).__init__()
        self.l1 = nn.Linear(100, 2560)
        self.l2 = nn.Linear(2560, 2560)
        self.l3 = nn.Linear(2560, 2)
        
    def forward(self, x):
        x = self.l1(x)
        x = self.l2(x)
        x = self.l3(x)
        return x

net = network()
bc_model_state = spark.sparkContext.broadcast(net.state_dict())

def get_model_for_eval():
  # Broadcast the model state_dict
  net.load_state_dict(bc_model_state.value)
  net.eval()
  return net
  
def one_row_predict(x):
    model = get_model_for_eval()
    t = torch.tensor(x, dtype=torch.float32)
    t = model(t).cpu().detach().numpy()
    #prediction = model(t).cpu().detach().item()
    # return prediction
    return list([float(i) for i in t])

one_row_udf = udf(one_row_predict, ArrayType(FloatType()))
df1 = df1.withColumn('pred_one_row', one_row_udf(col('features')))

在上面我们定义了一个简单模型，然后将其直接分发进行预测（这里省去了模型训练过程）。

但是当我们想使用一个比较复杂的模型来进行预测时（简单来讲就是不能使用 nn.Sequential 改写），使用上面的方法则会报错。

这时候需要将模型写入一个文件中，假设模型文件的路径为/export/models/item2vec.py, 使用pyspark中的addFile对其进行分发，然后import导入模型。

假设我们的模型文件/export/models/item2vec.py如下：

class Item2vec(nn.Module):
    def __init__(self, cv_dict, csr_cols):
        super(Item2vec, self).__init__()
        pass

    def forward(self, x):
        pass

    def predict(self, x):
        pass

假设模型已经训练好，现在要使用训练好的模型进行大规模预测：

from pyspark import SparkFiles
sc.addFile('/export/models/item2vec.py')
import sys
sys.path.append('/export/models/')

from item2vec import Item2vec

# model 表示训练好的模型
bc_model_state = sc.broadcast(model.state_dict())
net = Item2vec(cv_dict, csr_cols)

def get_model_for_eval_demo():
  # Broadcast the model state_dict
  net.load_state_dict(bc_model_state.value)
  net.eval()
  return net

上面的操作已经将模型分发（broadcast）出去，接下来就可以进行预测了。

预测这里介绍两种方式：一种是使用 udf + withColumn, 另一种则是使用 rdd + mapPartitions。

由于这里使用的是 pyspark 2.1，还没有pandas udf，因此使用 udf + withColumn 时只能一行一行的预测，运行速度上来说是比不上 rdd + mapPartitions。

对于pyspark 2.3以后的版本多了pandas udf后则可以使用batch predict了，具体可以参考

https://docs.databricks.com/static/notebooks/deep-learning/pytorch-images.html

udf + withColumn 的方式

# udf + withColumn 的方式
def one_row_predict_demo(x)
    x = torch.tensor(x, dtype=torch.float)
    _, prob = bc_model.predict(x)

    return round(float(prob[0]), 4)
    
one_row_predict_demo_udf = udf(one_row_predict_demo, DoubleType())

one_row_predict_demo_udf = udf(one_row_predict_demo, DoubleType())
df = demo.withColumn('demo_prob', one_row_predict_demo_udf('features'))

rdd + map 方式

def one_row_predict_map(rdds):
    bc_model = get_model_for_eval_demo()
    for row in rdds:
        x = torch.tensor(row.x, dtype=torch.float)
        _, prob = bc_model.predict(x)
    
        yield (row['id'], round(float(prob[0]), 4))

df = demo.rdd.mapPartitions(one_row_predict_map).toDF(['id', 'pred_prob'])

2. 效率优化（1）——mapPartition

上面的方法已经可以使得我们将训练好的深度学习模型部署到spark进行大规模预测了，但是其速度是非常慢的。通过在 mapPartitions 中进行一些处理，我们可以对预测进行加速：

# 代码源自 https://github.com/SaeedNajafi/infer-pytorch-pyspark

def basic_row_handler(row):
    return row

def predict_map(index, partition, ml_task,
                batch_size=16,
                row_preprocessor=basic_row_handler,
                row_postprocessor=basic_row_handler):

    # local model loading within each executor
    model = LocalPredictor(ml_task=ml_task, batch_size=batch_size,
                           partition_index=index)

    batch = []
    count = 0
    for row in partition:
        row_dict = row.asDict()
        # apply preprocessor on each row.
        row_dict_prep = row_preprocessor(row_dict)
        batch.append(row_dict_prep)
        count += 1
        if count == batch_size:
            # predict the ml and apply the postprocessor.
            for ret_row in model.predict(batch):  # ml prediction
                ret_row_post = row_postprocessor(ret_row)
                if ret_row_post is not None:
                    yield Row(**ret_row_post)

            batch = []
            count = 0

    # Flush remaining rows in the batches.
    if count != 0:
        for ret_row in model.predict(batch):  # ml prediction
            ret_row_post = row_postprocessor(ret_row)
            if ret_row_post is not None:
                yield Row(**ret_row_post)

        batch = []
        count = 0

上面的代码可以看作是在mapPartitions中进行了“延迟”预测——即先将一个partition中的多行数据进行处理然后合并为一个batch进行一起预测，这样能大大的提升运行效率。一个比较极端的情况是每个partition仅进行一次预测。

3. 效率优化（2）——pandas_udf

pandas_udf在udf的基础上进行了进一步的优化，利用pandas_udf程序运行效率更高。在这里我们可以借助于pandas_udf提升我们程序的运行效率：

# Enable Arrow support.
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set("spark.sql.execution.arrow.maxRecordsPerBatch", "64")

sc.addFile('get_model.py')
from get_model import get_model

model_path = '/path/to/model.pt'
data_path = '/path/to/data'

# model 表示训练好的模型
model = torch.load(model_path)
bc_model_state = sc.broadcast(model.state_dict())


def get_model_for_eval():
  # Broadcast the model state_dict  
  model = get_model()
  model.load_state_dict(bc_model_state.value)
  model.eval()
  return model

# model = torch.load(model_path)
# model = sc.broadcast(model)


@pandas_udf(FloatType())
def predict_batch_udf(arr: pd.Series) -> pd.Series:
    model = get_model_for_eval()
    # model.to(device)
    arr = np.vstack(arr.map(lambda x: eval(x)).values)
    arr = torch.tensor(arr).long()
    with torch.no_grad():
        predictions = list(model(arr).cpu().numpy())
            
    return pd.Series(predictions)

# 预测
data = data.withColumn('predictions', predict_batch_udf('features'))

作者：井底蛙蛙呱呱呱
链接：https://www.jianshu.com/p/fc60c967c8b8

我们的文章到此就结束啦，如果你喜欢今天的 Python 教程，请持续关注Python实用宝典。

有任何问题，可以在公众号后台回复：加群，回答相应验证信息，进入互助群询问。

原创不易，希望你能在下面点个赞和在看支持我继续创作，谢谢！

我要打赏

Python实用宝典 ( pythondict.com )
不只是一个宝典
欢迎关注公众号：Python实用宝典

github

Redash-让您的公司实现数据驱动。连接到任何数据源，轻松可视化、控制面板和共享您的数据

2021年7月13日 Python实用宝典

Redash旨在让任何人，无论技术复杂程度如何，都能利用大大小小数据的力量。SQL用户可以利用Redash来浏览、查询、可视化和共享来自任何数据源的数据。反过来，他们的工作使其组织中的任何人都可以使用这些数据。每天，世界各地数千个组织的数百万用户使用Redash开发洞察力并做出数据驱动的决策

Redash功能：

基于浏览器：浏览器中的所有内容，都有可共享的URL
易用性：立即利用数据提高工作效率，无需掌握复杂的软件
查询编辑器：使用架构浏览器和自动完成功能快速编写SQL和NoSQL查询
可视化和控制面板：创建beautiful visualizations拖放，并将它们组合到单个仪表板中
共享：通过共享可视化及其相关查询轻松协作，实现报告和查询的同行审查
计划刷新：按您定义的定期间隔自动更新图表和仪表板
警报：定义条件，并在数据更改时立即发出警报
睡觉接口：UI中可以做的一切也通过睡觉接口提供
对数据源的广泛支持：可扩展的数据源API，具有对一长串常用数据库和平台的本机支持

快速入门

Setting up Redash instance(包括指向现成AWS/GCE映像的链接)
Documentation

支持的数据源

Redash支持超过35个SQL和NoSQLdata sources它还可以扩展以支持更多内容。以下是内置源的列表：

亚马逊雅典娜
Amazon DynamoDB
亚马逊红移
Axibase时间序列数据库
卡桑德拉
ClickHouse
CockroachDB
CSV
数据库(阿帕奇电光)
IBM的DB2
德鲁伊
ES
谷歌分析
Google BigQuery
谷歌电子表格
石墨
绿梅
Hive
黑斑羚
InfluxDB
JIRA
JSON
阿帕奇麒麟
OmniSciDB(前身为MAPD)
MemSQL
Microsoft Azure数据仓库/Synapse
Microsoft Azure SQL数据库
Microsoft SQL Server
MongoDB
MySQL
甲骨文
PostgreSQL
普罗米修斯
python
夸博尔
岩石集
Salesforce
ScyllaDB
Shell脚本
雪花
SQLite
TiDB
财务数据
垂直方向
Yandex AppMetrrica
Yandex Metrica

获取帮助

问题：https://github.com/getredash/redash/issues
论坛：https://discuss.redash.io/

报告错误和贡献代码

想要报告错误或请求功能吗？请打开an issue
想要帮助我们建造雷达什？分叉项目，在dev environment并提出拉取请求。我们需要所有能得到的帮助！

安全性

请发电子邮件给我security@redash.io报告任何安全漏洞。我们将确认收到您的漏洞，并努力定期向您发送有关我们进度的最新信息。如果您对您的信息披露情况感到好奇，请随时再次向我们发送电子邮件。如果您想要加密您的披露电子邮件，您可以使用this PGP key

许可证

BSD-2-条款

github

Data-science-ipython-notebooks-数据科学Python笔记本：深度学习

2021年7月13日 Python实用宝典

数据-科学-IPython-笔记本

索引

deep-learning
- tensorflow
- theano
- keras
- caffe
scikit-learn
statistical-inference-scipy
pandas
matplotlib
numpy
python-data
kaggle-and-business-analyses
spark
mapreduce-python
amazon web services
command lines
misc
notebook-installation
credits
contributing
contact-info
license

深度学习

演示深度学习功能的IPython笔记本

张量流教程

其他TensorFlow教程：

笔记本电脑	描述
tsf-basics	在TensorFlow中学习基本操作，TensorFlow是Google提供的各种感知和语言理解任务的库
tsf-linear	在TensorFlow中实现线性回归
tsf-logistic	在TensorFlow中实现Logistic回归
tsf-nn	在TensorFlow中实现最近邻居
tsf-alex	在TensorFlow中实现AlexNet
tsf-cnn	卷积神经网络在TensorFlow中的实现
tsf-mlp	在TensorFlow中实现多层感知器
tsf-rnn	递归神经网络在TensorFlow中的实现
tsf-gpu	了解TensorFlow中的基本多GPU计算
tsf-gviz	了解TensorFlow中的图形可视化
tsf-lviz	了解TensorFlow中的损耗可视化

张量流练习

笔记本电脑	描述
tsf-not-mnist	通过为TensorFlow中的培训、开发和测试创建带有格式化数据集的Pickle，了解简单的数据管理
tsf-fully-connected	在TensorFlow中使用Logistic回归和神经网络逐步训练更深更精确的模型
tsf-regularization	通过训练全连通网络对TensorFlow中的notMNIST字符进行分类来探索正则化技术
tsf-convolutions	在TensorFlow中创建卷积神经网络
tsf-word2vec	在TensorFlow中对Text8数据训练跳格模型
tsf-lstm	在TensorFlow中对Text8数据训练LSTM字符模型

Theano-教程

笔记本电脑	描述
theano-intro	Theano简介，它允许您高效地定义、优化和计算涉及多维数组的数学表达式。它可以使用GPU并执行高效的符号微分
theano-scan	学习扫描，这是一种在Theano图中执行循环的机制
theano-logistic	在Theano中实现Logistic回归
theano-rnn	递归神经网络在Theano中的实现
theano-mlp	在Theano中实现多层感知器

Keras-教程

笔记本电脑	描述
角膜	KERAS是一个用Python编写的开源神经网络库。它可以在TensorFlow或Theano上运行
setup	了解教程目标以及如何设置Kera环境
intro-deep-learning-ann	介绍使用KERAS和人工神经网络(ANN)进行深度学习
theano	通过使用权重矩阵和梯度了解Theano
keras-otto	通过观看卡格尔·奥托挑战赛了解凯拉斯
ann-mnist	基于KERAS的MNIST人工神经网络的简单实现
conv-nets	使用KERAS了解卷积神经网络(CNN)
conv-net-1	使用KERA识别MNIST中的手写数字-第1部分
conv-net-2	使用KERA识别MNIST中的手写数字-第2部分
keras-models	将预先培训的型号(如VGG16、VGG19、ResNet50和Inception v3)与KERA配合使用
auto-encoders	了解有关KERAS自动编码器的信息
rnn-lstm	使用KERAS了解递归神经网络(RNN)
lstm-sentence-gen	了解与KERA配合使用长短期内存(LSTM)网络的RNN

深度学习-其他

笔记本电脑	描述
deep-dream	基于Caffe的计算机视觉程序，使用卷积神经网络来查找和增强图像中的图案

科学工具包-学习

演示SCRICKIT学习功能的IPython笔记本

笔记本电脑	描述
intro	介绍笔记本到SCRICKIT-学习。Scikit-Learning添加了对大型多维数组和矩阵的Python支持，以及对这些数组进行操作的高级数学函数库的大型库
knn	在SCRICKIT-LEARN中实现k-近邻
linear-reg	在SCRICKIT-LEARCH中实现线性回归
svm	在SCRKIT-LEARN中实现带核和不带核的支持向量机分类器
random-forest	在SCRICKIT-LEARN中实现随机森林分类器和回归器
k-means	在SCRICIT-LEARN中实现k-均值聚类
pca	主成分分析在SCRICIT-LEARCH中的实现
gmm	在SCRICIT-LEARN中实现高斯混合模型
validation	在SCRICKIT-LEARN中实现验证和模型选择

统计推理法

演示使用SciPy功能进行统计推断的IPython笔记本

笔记本电脑	描述
尖刺的	SciPy是构建在Python的Numpy扩展上的数学算法和便利函数的集合。它为用户提供用于操作和可视化数据的高级命令和类，从而大大增强了交互式Python会话的功能
effect-size	通过分析男性和女性的身高差异，探索量化效应大小的统计数据。使用行为危险因素监测系统(BRFSS)的数据来估计美国成年女性和男性的平均身高和标准偏差
sampling	利用BRFSS数据分析美国男女平均体重探索随机抽样
hypothesis	通过分析头胎婴儿与其他婴儿的差异来探索假设检验

熊猫

演示熊猫功能的IPython笔记本

笔记本电脑	描述
pandas	用Python编写的用于数据操作和分析的软件库。提供用于操作数值表和时间序列的数据结构和操作
github-data-wrangling	通过分析中的GitHub数据，了解如何加载、清理、合并和要素工程`Viz`回购
Introduction-to-Pandas	熊猫简介
Introducing-Pandas-Objects	了解熊猫对象
Data Indexing and Selection	了解有关熊猫中的数据索引和选择的信息
Operations-in-Pandas	了解有关在熊猫中操作数据的信息
Missing-Values	了解有关处理熊猫中丢失的数据的信息
Hierarchical-Indexing	了解有关熊猫中的分层索引的信息
Concat-And-Append	了解有关组合数据集的信息：在熊猫中合并和追加
Merge-and-Join	了解有关组合数据集的信息：在熊猫中合并和连接
Aggregation-and-Grouping	了解有关在熊猫中聚合和分组的信息
Pivot-Tables	了解有关熊猫中的透视表的信息
Working-With-Strings	了解有关熊猫中的矢量化字符串操作的信息
Working-with-Time-Series	了解有关在熊猫中使用时间序列的信息
Performance-Eval-and-Query	了解高性能熊猫：熊猫中的eval()和query()

Matplotlib

演示matplotlib功能的IPython笔记本

笔记本电脑	描述
matplotlib	Python 2D绘图库，以各种硬拷贝格式和跨平台交互环境生成出版物质量数据
matplotlib-applied	将matplotlib可视化应用于Kaggle比赛以进行探索性数据分析。了解如何创建条形图、直方图、子图2格网、归一化图、散点图、子图和核密度估计图
Introduction-To-Matplotlib	Matplotlib简介
Simple-Line-Plots	了解有关Matplotlib中的简单线条图的信息
Simple-Scatter-Plots	了解有关Matplotlib中的简单散点图的信息
Errorbars.ipynb	了解有关在Matplotlib中可视化错误的信息
Density-and-Contour-Plots	了解Matplotlib中的密度和等高线绘图
Histograms-and-Binnings	了解有关Matplotlib中的直方图、二进制和密度的信息
Customizing-Legends	了解有关在Matplotlib中自定义地块图例的信息
Customizing-Colorbars	了解有关在Matplotlib中自定义色带的信息
Multiple-Subplots	了解有关Matplotlib中的多个子图的信息
Text-and-Annotation	了解有关Matplotlib中的文本和注记的信息
Customizing-Ticks	了解有关在Matplotlib中自定义刻度的信息
Settings-and-Stylesheets	了解有关自定义Matplotlib的信息：配置和样式表
Three-Dimensional-Plotting	了解有关在Matplotlib中进行三维打印的信息
Geographic-Data-With-Basemap	了解有关在Matplotlib中使用底图的地理数据的信息
Visualization-With-Seaborn	了解有关海运可视化的信息

麻木的

演示NumPy功能的IPython笔记本

笔记本电脑	描述
numpy	添加了对大型多维数组和矩阵的Python支持，以及对这些数组进行运算的大型高级数学函数库
Introduction-to-NumPy	NumPy简介
Understanding-Data-Types	了解有关Python中的数据类型的信息
The-Basics-Of-NumPy-Arrays	了解NumPy阵列的基础知识
Computation-on-arrays-ufuncs	了解有关NumPy数组的计算：泛函
Computation-on-arrays-aggregates	了解有关聚合的信息：NumPy中的最小值、最大值以及介于两者之间的所有内容
Computation-on-arrays-broadcasting	了解有关数组计算的信息：在NumPy中广播
Boolean-Arrays-and-Masks	了解有关NumPy中的比较、掩码和布尔逻辑的信息
Fancy-Indexing	了解NumPy中的奇特索引
Sorting	了解有关在NumPy中对数组进行排序的信息
Structured-Data-NumPy	了解结构化数据：NumPy的结构化数组

Python-Data

IPython笔记本，演示面向数据分析的Python功能

笔记本电脑	描述
data structures	使用元组、列表、字典、集学习Python基础知识
data structure utilities	学习Python操作，如切片、范围、xrange、二等分、排序、排序、反转、枚举、压缩、列表理解
functions	了解更高级的Python功能：函数作为对象、lambda函数、闭包、args、*kwargs curying、生成器、生成器表达式、itertools
datetime	了解如何使用Python日期和时间：datetime、strftime、strptime、timeDelta
logging	了解有关使用RotatingFileHandler和TimedRotatingFileHandler进行Python日志记录的信息
pdb	了解如何使用交互式源代码调试器在Python中进行调试
unit tests	了解如何在Python中使用NOSE单元测试进行测试

Kaggle-and-Business分析

中使用的IPython笔记本kaggle竞争和业务分析

笔记本电脑	描述
titanic	预测泰坦尼克号上的生还者。学习数据清理、探索性数据分析和机器学习
churn-analysis	预测客户流失。练习逻辑回归、梯度增强分类器、支持向量机、随机森林和k近邻。包括对念力矩阵、ROC图、特征重要性、预测概率和校准/识别的讨论

电光

演示电光和HDFS功能的IPython笔记本

笔记本电脑	描述
spark	内存集群计算框架，对于某些应用程序速度最高可提高100倍，并且非常适合机器学习算法
hdfs	在大型群集中跨计算机可靠地存储非常大的文件

MapReduce-Python

演示使用mrjob功能的Hadoop MapReduce的IPython笔记本

笔记本电脑	描述
mapreduce-python	在Python中运行MapReduce作业，在本地或Hadoop群集上执行作业。演示Python代码中的Hadoop流以及单元测试和mrjob用于分析Elastic MapReduce上的Amazon S3存储桶日志的配置文件。Disco是另一个基于python的替代方案。

AWS

演示Amazon Web服务(AWS)和AWS工具功能的IPython笔记本

另请查看：

SAWS：增强型AWS命令行界面(CLI)
Awesome AWS：库、开源Repos、指南、博客和其他资源的精选列表

笔记本电脑	描述
boto	针对Python的官方AWS SDK
s3cmd	通过命令行与S3交互
s3distcp	组合较小的文件，并通过接受模式和目标文件将它们聚合在一起。S3DistCp还可用于将大量数据从S3传输到您的Hadoop群集
s3-parallel-put	将多个文件并行上传到S3
redshift	充当建立在大规模并行处理(MPP)技术之上的快速数据仓库
kinesis	通过每秒处理数千个数据流的能力实时流式传输数据
lambda	运行代码以响应事件，自动管理计算资源

命令

IPython笔记本，演示Linux、Git等的各种命令行

笔记本电脑	描述
linux	类UNIX且大多兼容POSIX的计算机操作系统。磁盘使用情况、拆分文件、grep、sed、curl、查看正在运行的进程、终端语法突出显示和Vim
anaconda	发布用于大规模数据处理、预测分析和科学计算的Python编程语言，旨在简化包管理和部署
ipython notebook	基于Web的交互式计算环境，您可以在其中将代码执行、文本、数学、绘图和富媒体组合到单个文档中
git	强调速度、数据完整性并支持分布式非线性工作流的分布式修订控制系统
ruby	用于与AWS命令行和Jekyll交互，Jekyll是可托管在GitHub页面上的博客框架
jekyll	简单、支持博客的静电站点生成器，适用于个人、项目或组织站点。呈现Markdown或Textile and Liquid模板，并生成一个完整的静电网站，准备好由Apache HTTP Server、NGINX或其他Web服务器提供服务
pelican	基于Python的Jekyll替代方案
django	高级Python Web框架，鼓励快速开发和干净、实用的设计。它对共享报告/分析和博客很有用。较轻的替代方案包括Pyramid，Flask，Tornado，以及Bottle

杂项

演示各种功能的IPython笔记本

笔记本电脑	描述
regex	数据争论中有用的正则表达式小抄
algorithmia	Algorithmia是一个算法市场。本笔记本展示了4种不同的算法：人脸检测、内容摘要、潜在狄利克雷分配和光学字符识别

笔记本-安装

python

Anaconda是Python编程语言的免费发行版，用于大规模数据处理、预测分析和科学计算，旨在简化包管理和部署

按照说明进行安装Anaconda或者更轻的miniconda

设备-设置

有关设置数据分析开发环境的详细说明、脚本和工具，请参阅dev-setup回购

跑步-笔记本

要查看交互式内容或修改IPython笔记本中的元素，必须首先克隆或下载存储库，然后再运行笔记本。有关IPython笔记本的更多信息可以找到here.

$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook

使用Python 2.7.x测试的笔记本电脑

学分

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython韦斯·麦金尼(Wes McKinney)著
PyCon 2015 Scikit-learn Tutorial杰克·范德普拉斯(Jack Vanderplas)著
Python Data Science Handbook杰克·范德普拉斯(Jack Vanderplas)著
Parallel Machine Learning with scikit-learn and IPython奥利维尔·格里塞尔(Olivier Grisel)著
Statistical Interference Using Computational Methods in Python艾伦·唐尼(Allen Downey)著
TensorFlow Examples艾梅里克·达米恩(Aymeric Damien)著
TensorFlow Tutorials作者：Parag K Mital
TensorFlow Tutorials内森·林茨(Nathan Lintz)著
TensorFlow Tutorials亚历山大·R·约翰逊(Alexander R Johansen)著
TensorFlow Book尼尚特·舒克拉(Nishant Shukla)著
Summer School 2015作者：Mila-UdeM
Keras tutorials瓦莱里奥·马吉奥(Valerio Maggio)著
Kaggle
Yhat Blog

贡献

欢迎投稿！有关错误报告或请求，请submit an issue

联系方式-信息

请随时与我联系，讨论任何问题、问题或评论

电子邮件：donne.martin@gmail.com
推特：@donne_martin
GitHub：donnemartin
LinkedIn：donnemartin
网站：donnemartin.com

许可证

这个存储库包含各种内容；有些是由Donne Martin开发的，有些是来自第三方的。第三方内容在这些方提供的许可下分发

由Donne Martin开发的内容按照以下许可证分发：

我在开放源码许可下向您提供此存储库中的代码和资源。因为这是我的个人存储库，您获得的我的代码和资源的许可证来自我，而不是我的雇主(Facebook)

Copyright 2015 Donne Martin

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

   http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

github

Spark-Apache 面向大规模数据处理的统一分析引擎

2021年7月12日 Python实用宝典

Spark

Spark是面向大规模数据处理的统一分析引擎。它提供了Scala、Java、Python和R的高级API，以及支持通用计算图形进行数据分析的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和DataFrame的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX以及用于流处理的结构化流

在线文档

您可以在上找到最新的Spark文档，包括编程指南project web page本自述文件仅包含基本设置说明

建设Spark

Spark是用Apache Maven要构建Spark及其示例程序，请运行：

./build/mvn -DskipTests clean package

(如果您下载了预构建包，则不需要执行此操作。)

更详细的文档可从项目网站获得，网址为“Building Spark”

有关常规开发提示，包括有关使用集成开发环境开发Spark的信息，请参见“Useful Developer Tools”

交互式Scala外壳

开始使用Spark的最简单方式是通过scala shell：

./bin/spark-shell

尝试执行以下命令，该命令应返回1,000,000,000：

scala> spark.range(1000 * 1000 * 1000).count()

交互式Python外壳

或者，如果您喜欢Python，也可以使用Python shell：

./bin/pyspark

并运行以下命令，该命令也应返回1,000,000,000：

>>> spark.range(1000 * 1000 * 1000).count()

示例程序

Spark还在examples目录。要运行其中一个，请使用./bin/run-example <class> [params]例如：

./bin/run-example SparkPi

将在本地运行PI示例

您可以在运行示例时设置MASTER环境变量，以将示例提交到集群。这可以是 mesos:// 或 Spark://url，“纱线”在纱线上运行，“local”在本地运行，只有一个线程，或者“local[N]”在本地运行，有N个线程。如果类位于examples包裹。例如：

MASTER=spark://host:7077 ./bin/run-example SparkPi

如果没有给出参数，许多示例程序会打印用法帮助

运行测试

测试首先需要building Spark构建Spark后，可以使用以下工具运行测试：

./dev/run-tests

请参阅有关如何执行以下操作的指南run tests for a module, or individual tests

还有一个Kubernetes集成测试，参见resource-managers/kubernetes/integration-tests/README.md

关于Hadoop版本的说明

Spark使用hadoop核心库与hdfs和其他hadoop支持的存储系统对话。由于不同版本的HADOOP中的协议已更改，因此您必须根据群集运行的相同版本构建Spark

请参阅以下地址的构建文档：“Specifying the Hadoop Version and Enabling YARN”有关针对特定Hadoop发行版进行构建的详细指导，包括针对特定配置单元和配置单元节俭服务器发行版进行构建

配置

请参阅Configuration Guide有关如何配置Spark的概述，请参阅联机文档

贡献

请查看Contribution to Spark guide有关如何开始为项目做贡献的信息，请参阅

1.利用spark进行特征工程预处理，以保证训练集和测试集特征处理一致；

udf + withColumn 的方式

rdd + map 方式

2. 效率优化（1）——mapPartition

3. 效率优化（2）——pandas_udf

快速入门

支持的数据源

获取帮助

报告错误和贡献代码

安全性

许可证

数据-科学-IPython-笔记本

索引

深度学习

张量流教程

张量流练习

Theano-教程

Keras-教程

深度学习-其他

科学工具包-学习

统计推理法

熊猫

Matplotlib

麻木的

Python-Data

Kaggle-and-Business分析

电光

MapReduce-Python

AWS

命令

杂项

笔记本-安装

python

设备-设置

跑步-笔记本

学分

贡献

联系方式-信息

许可证

Spark

在线文档

建设Spark

交互式Scala外壳

交互式Python外壳

示例程序

运行测试

关于Hadoop版本的说明

配置

贡献

有趣好用的Python教程