问题:Python-sklearn.pipeline.Pipeline到底是什么?
我不知道如何sklearn.pipeline.Pipeline
工作。
在文档中有一些解释。例如,它们的意思是:
带有最终估算器的变换管线。
为了使我的问题更清楚,什么是steps
?它们如何运作?
编辑
多亏了答案,我可以使我的问题更清楚:
当我调用管道并通过时,需要两个转换器和一个估计器,例如:
pipln = Pipeline([("trsfm1",transformer_1),
("trsfm2",transformer_2),
("estmtr",estimator)])
我叫这个怎么办?
pipln.fit()
OR
pipln.fit_transform()
我不知道估算器如何成为变压器以及如何装配变压器。
回答 0
scikit-learn中的Transformer-一些具有fit和transform方法或fit_transform方法的类。
预测器 -具有fit和预测方法或fit_predict方法的某些类。
管道只是一个抽象概念,它不是现有的ml算法。在ML任务中,通常需要在应用最终估计量之前对原始数据集执行不同变换的序列(查找特征集,生成新特征,仅选择一些良好特征)。
这是管道使用的一个很好的例子。管道为您提供了所有3个转换步骤和最终估算器的单一界面。它在内部封装了转换器和预测变量,现在您可以执行以下操作:
vect = CountVectorizer()
tfidf = TfidfTransformer()
clf = SGDClassifier()
vX = vect.fit_transform(Xtrain)
tfidfX = tfidf.fit_transform(vX)
predicted = clf.fit_predict(tfidfX)
# Now evaluate all steps on test set
vX = vect.fit_transform(Xtest)
tfidfX = tfidf.fit_transform(vX)
predicted = clf.fit_predict(tfidfX)
只是:
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier()),
])
predicted = pipeline.fit(Xtrain).predict(Xtrain)
# Now evaluate all steps on test set
predicted = pipeline.predict(Xtest)
使用管道,您可以轻松地针对该元估计器的每个步骤对一组参数执行网格搜索。如以上链接中所述。除了最后一个步骤以外的所有步骤都必须是转换步骤,最后一个步骤可以是变换器或预测值。
编辑答案:调用时pipln.fit()
-管道中的每个变压器都将安装在先前变压器的输出上(从原始数据集获悉第一个变压器)。最后一个估计器可以是转换器或预测器,仅当您的最后一个估计器是转换器(可以实现fit_transform或分别转换和拟合方法)时,才可以在管道上调用fit_transform(),仅在以下情况下可以在管道上调用fit_predict()或dictate():您的最后一个估算器是预测器。因此,您无法调用fit_transform或在管道上进行转换,而最后一步是预测变量。
回答 1
我认为M0rkHaV有正确的想法。Scikit学习的管道类是用于封装多个不同的变压器旁边的估计到一个对象,一个有用的工具,这样你只需要打电话给你一次(重要的方法fit()
,predict()
等等)。让我们分解两个主要部分:
变形金刚是同时实现
fit()
和的类transform()
。您可能熟悉一些sklearn预处理工具,例如TfidfVectorizer
和Binarizer
。如果查看这些预处理工具的文档,就会发现它们实现了这两种方法。我觉得很酷的是,一些估算器也可以用作转换步骤,例如LinearSVC
!估算器是同时实现
fit()
和的类predict()
。您会发现许多分类器和回归模型都实现了这两种方法,因此您可以轻松地测试许多不同的模型。可以使用另一个转换器作为最终估计量(即,它不一定实现predict()
,但肯定实现fit()
)。这意味着您不能打电话predict()
。
至于您的编辑:让我们来看一个基于文本的示例。使用LabelBinarizer,我们希望将标签列表转换为二进制值列表。
bin = LabelBinarizer() #first we initialize
vec = ['cat', 'dog', 'dog', 'dog'] #we have our label list we want binarized
现在,当二进制化器适合某些数据时,它将具有一个称为的结构classes_
,其中包含转换器“知道”的唯一类。如果不调用fit()
Binarizer,则不知道数据的外观,因此调用transform()
没有任何意义。如果在尝试拟合数据之前打印出类的列表,则为true。
print bin.classes_
尝试此操作时出现以下错误:
AttributeError: 'LabelBinarizer' object has no attribute 'classes_'
但是,当您将二值化器放在vec
列表中时:
bin.fit(vec)
然后再试一次
print bin.classes_
我得到以下内容:
['cat' 'dog']
print bin.transform(vec)
现在,在对vec
对象调用transform之后,我们得到以下信息:
[[0]
[1]
[1]
[1]]
至于用作转换器的估计器,让我们以DecisionTree
分类器为特征提取器的示例。决策树之所以出色,有很多原因,但是出于我们的目的,重要的是决策树能够对那些认为对预测有用的要素进行排名。当你调用transform()
一个决策树,它将把你的输入数据,并查找其认为是最重要的特征。因此,您可以考虑将数据矩阵(n行乘m列)转换为较小的矩阵(n行乘k列),其中k列是决策树发现的k个最重要的特征。
回答 2
ML算法通常处理表格数据。您可能需要在ML算法之前和之后对该数据进行预处理和后处理。管道是链接这些数据处理步骤的一种方式。
什么是ML管道,它们如何工作?
管道是转换数据的一系列步骤。它来自旧的“管道和过滤器”设计模式(例如,您可以想到带有管道“ |”的unix bash命令或重定向运算符“>”)。但是,管道是代码中的对象。因此,您可能为每个过滤器(又称为每个管道步骤)都有一个类,然后是另一个将这些步骤组合到最终管道中的类。一些管道可能将其他管道串联或并联组合,具有多个输入或输出,依此类推。我们喜欢将机器学习管道视为:
- 管道和过滤器。管道的步骤处理数据,并且它们管理可以从数据中学到的内部状态。
- 复合材料。管道可以嵌套:例如,整个管道可以视为另一个管道中的单个管道步骤。流水线步骤不一定是流水线,但根据定义,流水线本身至少是流水线步骤。
- 有向无环图(DAG)。流水线步骤的输出可以发送到许多其他步骤,然后可以重新组合生成的输出,依此类推。旁注:尽管管道是非循环的,但它们可以一个接一个地处理多个项目,并且如果它们的状态发生变化(例如:每次使用fit_transform方法),那么它们可以被视为随着时间的流逝不断展开,保持其状态(例如RNN)。这是一种有趣的方式,可用于在生产中进行在线学习并在更多数据上对其进行培训时进行在线学习。
Scikit-Learn管道的方法
管道(或管道中的步骤)必须具有以下两种方法:
也可以调用此方法来链接两者:
- “ fit_transform ”可以拟合然后转换数据,但是要一次通过,当必须直接一个接一个地执行这两种方法时,可以进行潜在的代码优化。
sklearn.pipeline.Pipeline类的问题
Scikit-Learn的“管道和过滤器”设计模式非常漂亮。但是如何将其用于深度学习,AutoML和复杂的生产级管道?
Scikit-Learn于2007年首次发布,那是一个深度学习的前纪。但是,它是最著名和采用最广泛的机器学习库之一,并且仍在增长。最重要的是,它使用“管道和过滤器”设计模式作为软件体系结构样式-这就是Scikit-Learn如此出色的原因,此外它还提供了可供使用的算法。但是,在执行以下操作时会遇到很多问题,我们应该能够在2020年做到这一点:
- 自动机器学习(AutoML),
- 深度学习管道,
- 更复杂的机器学习管道。
我们为那些Scikit-Learn问题找到的解决方案
当然,Scikit-Learn非常方便且结构精良。但是,它需要刷新。这是我们与Neuraxle的解决方案,使Scikit-Learn在现代计算项目中变得新鲜和可用!
通过Neuraxle提供的其他管道方法和功能
注意:如果管道的某个步骤不需要使用fit或transform方法之一,则它可以从NonFittableMixin或NonTransformableMixin继承,以提供这些方法之一的默认实现而不执行任何操作。
首先,管道或其步骤还可以选择定义这些方法:
- “ setup ”,将在每个步骤中调用“ setup”方法。例如,如果某个步骤包含TensorFlow,PyTorch或Keras神经网络,则这些步骤可以创建它们的神经图,并在适合之前通过“设置”方法将它们注册到GPU。不建议在步骤的构造函数中直接创建图形,这有几个原因,例如,如果在自动机器学习算法中使用不同的超参数多次运行之前复制了这些步骤,然后自动为您搜索最佳的超参数。
- “ 拆解 ”,与“设置”方法相反:它清除资源。
将默认提供以下方法,使管理的超参数:
- “ get_hyperparams ”将为您返回超参数的字典。如果您的管道包含更多的管道(嵌套管道),则超参数的键将用双下划线“ __”分隔符链接。
- “ set_hyperparams ”将允许您以获取时的相同格式设置新的超参数。
- “ get_hyperparams_space ”允许您获取超参数的空间,如果您定义了超参数的空间,则该空间不会为空。因此,这里与“ get_hyperparams”的唯一区别是,您将获得统计分布作为值而不是精确值。例如,层数的一个超参数可以是a
RandInt(1, 3)
,表示1到3层。您可以调用.rvs()
此dict随机选择一个值,并将其发送到“ set_hyperparams”以尝试对其进行训练。 - “ set_hyperparams_space ”可用于使用与“ get_hyperparams_space ”中相同的超参数分布类来设置新空间。
有关建议的解决方案的更多信息,请阅读上面带有链接的大列表中的条目。