标签归档：kaggle

Comparison experiments公开数据集上的数据显示，LightGBM在效率和准确性上都优于现有的Boosting框架，并且内存消耗明显较低。更重要的是,distributed learning experiments展示了LightGBM可以通过在特定设置中使用多台机器进行训练来实现线性加速

入门和文档

我们的主要文档在https://lightgbm.readthedocs.io/并且是从该存储库生成的。如果您是LightGBM的新手，请关注the installation instructions在那个网站上

接下来，您可能想要阅读：

Examples显示常见任务的命令行用法
Features和LightGBM支持的算法
Parameters是您可以进行的自定义的详尽列表
Distributed Learning和GPU Learning可以加快计算速度
Laurae++ interactive documentation是有关超参数的详细指南。
FLAML自动调整LightGBM(code examples)
Optuna Hyperparameter Tuner提供对LightGBM超参数的自动调整(code examples)

投稿人文档：

How we update readthedocs.io
请查看Development Guide

新闻

请参阅更改日志，地址为GitHub releases页面

一些旧的更新日志位于Key Events页面

外部(非官方)存储库

FLAML(用于超参数优化的AutoML库)：https://github.com/microsoft/FLAML

Optuna(超参数优化框架)：https://github.com/optuna/optuna

朱莉娅-套餐：https://github.com/IQVIA-ML/LightGBM.jl

JPMML(Java PMML转换器)：https://github.com/jpmml/jpmml-lightgbm

Treite(用于高效部署的模型编译器)：https://github.com/dmlc/treelite

lLeaf(基于LLVM的模型编译器，用于高效推理)：https://github.com/siboehm/lleaves

Hummingbird(将模型编译器转换为张量计算)：https://github.com/microsoft/hummingbird

CuML林推理库(GPU加速推理)：https://github.com/rapidsai/cuml

daal4py(英特尔CPU加速推理)：https://github.com/IntelPython/daal4py

m2cgen(适用于各种语言的模型应用程序)：https://github.com/BayesWitnesses/m2cgen

树叶(GO模型施加器)：https://github.com/dmitryikh/leaves

ONNXMLTools(ONNX转换器)：https://github.com/onnx/onnxmltools

Shap(模型输出解释器)：https://github.com/slundberg/shap

Shapash(模型可视化和解释)：https://github.com/MAIF/shapash

dtreeviz(决策树可视化和模型解释)：https://github.com/parrt/dtreeviz

MMLSpark(电光上的LightGBM)：https://github.com/Azure/mmlspark

Kubeflow光顺(Kubernetes上的LightGBM)：https://github.com/kubeflow/fairing

Kubeflow运算符(Kubernetes上的LightGBM)：https://github.com/kubeflow/xgboost-operator

ML.NET(.NET/C#-Package)：https://github.com/dotnet/machinelearning

LightGBM.NET(.NET/C#-Package)：https://github.com/rca22/LightGBM.Net

红宝石：https://github.com/ankane/lightgbm

LightGBM4j(Java高级绑定)：https://github.com/metarank/lightgbm4j

lightgbm-rs(铁锈装订)：https://github.com/vaaaaanquish/lightgbm-rs

MLflow(实验跟踪、模型监控框架)：https://github.com/mlflow/mlflow

{treesnip}(r{parsnip}-兼容接口)：https://github.com/curso-r/treesnip

{mlr3learners.lightgbm}(r{mlr3}-兼容接口)：https://github.com/mlr3learners/mlr3learners.lightgbm

支持

问一个问题on Stack Overflow with the lightgbm tag，我们关注这一点，以发现新的问题
打开错误报告和功能请求(不是问题)上GitHub issues

如何做出贡献

检查CONTRIBUTING页面

Microsoft开放源代码行为准则

本项目采用了Microsoft Open Source Code of Conduct有关更多信息，请参阅Code of Conduct FAQ或联系方式opencode@microsoft.com如有任何其他问题或评论

参考文献

柯国林，齐蒙，托马斯·芬利，王泰峰，魏晨，马卫东，叶启伟，刘铁岩。“LightGBM: A Highly Efficient Gradient Boosting Decision Tree“神经信息处理系统的进展”(NIPS 2017)，第3149-3157页。

齐蒙，柯国林，王泰峰，魏晨，叶启伟，马志明，刘铁岩。“A Communication-Efficient Parallel Algorithm for Decision Tree“神经信息处理系统的进展”29(NIPS 2016)，第1279-1287页

张欢，四思，谢楚瑞。“GPU Acceleration for Large-scale Tree Boosting“.SysML大会，2018年

注意事项：如果您在GitHub项目中使用LightGBM，请添加lightgbm在requirements.txt

许可证

这个项目是根据麻省理工学院的许可证条款授权的。看见LICENSE有关更多详细信息，请参阅

github

Data-science-ipython-notebooks-数据科学Python笔记本：深度学习

2021年7月13日 Python实用宝典

数据-科学-IPython-笔记本

索引

deep-learning
- tensorflow
- theano
- keras
- caffe
scikit-learn
statistical-inference-scipy
pandas
matplotlib
numpy
python-data
kaggle-and-business-analyses
spark
mapreduce-python
amazon web services
command lines
misc
notebook-installation
credits
contributing
contact-info
license

深度学习

演示深度学习功能的IPython笔记本

张量流教程

其他TensorFlow教程：

笔记本电脑	描述
tsf-basics	在TensorFlow中学习基本操作，TensorFlow是Google提供的各种感知和语言理解任务的库
tsf-linear	在TensorFlow中实现线性回归
tsf-logistic	在TensorFlow中实现Logistic回归
tsf-nn	在TensorFlow中实现最近邻居
tsf-alex	在TensorFlow中实现AlexNet
tsf-cnn	卷积神经网络在TensorFlow中的实现
tsf-mlp	在TensorFlow中实现多层感知器
tsf-rnn	递归神经网络在TensorFlow中的实现
tsf-gpu	了解TensorFlow中的基本多GPU计算
tsf-gviz	了解TensorFlow中的图形可视化
tsf-lviz	了解TensorFlow中的损耗可视化

张量流练习

笔记本电脑	描述
tsf-not-mnist	通过为TensorFlow中的培训、开发和测试创建带有格式化数据集的Pickle，了解简单的数据管理
tsf-fully-connected	在TensorFlow中使用Logistic回归和神经网络逐步训练更深更精确的模型
tsf-regularization	通过训练全连通网络对TensorFlow中的notMNIST字符进行分类来探索正则化技术
tsf-convolutions	在TensorFlow中创建卷积神经网络
tsf-word2vec	在TensorFlow中对Text8数据训练跳格模型
tsf-lstm	在TensorFlow中对Text8数据训练LSTM字符模型

Theano-教程

笔记本电脑	描述
theano-intro	Theano简介，它允许您高效地定义、优化和计算涉及多维数组的数学表达式。它可以使用GPU并执行高效的符号微分
theano-scan	学习扫描，这是一种在Theano图中执行循环的机制
theano-logistic	在Theano中实现Logistic回归
theano-rnn	递归神经网络在Theano中的实现
theano-mlp	在Theano中实现多层感知器

Keras-教程

笔记本电脑	描述
角膜	KERAS是一个用Python编写的开源神经网络库。它可以在TensorFlow或Theano上运行
setup	了解教程目标以及如何设置Kera环境
intro-deep-learning-ann	介绍使用KERAS和人工神经网络(ANN)进行深度学习
theano	通过使用权重矩阵和梯度了解Theano
keras-otto	通过观看卡格尔·奥托挑战赛了解凯拉斯
ann-mnist	基于KERAS的MNIST人工神经网络的简单实现
conv-nets	使用KERAS了解卷积神经网络(CNN)
conv-net-1	使用KERA识别MNIST中的手写数字-第1部分
conv-net-2	使用KERA识别MNIST中的手写数字-第2部分
keras-models	将预先培训的型号(如VGG16、VGG19、ResNet50和Inception v3)与KERA配合使用
auto-encoders	了解有关KERAS自动编码器的信息
rnn-lstm	使用KERAS了解递归神经网络(RNN)
lstm-sentence-gen	了解与KERA配合使用长短期内存(LSTM)网络的RNN

深度学习-其他

笔记本电脑	描述
deep-dream	基于Caffe的计算机视觉程序，使用卷积神经网络来查找和增强图像中的图案

科学工具包-学习

演示SCRICKIT学习功能的IPython笔记本

笔记本电脑	描述
intro	介绍笔记本到SCRICKIT-学习。Scikit-Learning添加了对大型多维数组和矩阵的Python支持，以及对这些数组进行操作的高级数学函数库的大型库
knn	在SCRICKIT-LEARN中实现k-近邻
linear-reg	在SCRICKIT-LEARCH中实现线性回归
svm	在SCRKIT-LEARN中实现带核和不带核的支持向量机分类器
random-forest	在SCRICKIT-LEARN中实现随机森林分类器和回归器
k-means	在SCRICIT-LEARN中实现k-均值聚类
pca	主成分分析在SCRICIT-LEARCH中的实现
gmm	在SCRICIT-LEARN中实现高斯混合模型
validation	在SCRICKIT-LEARN中实现验证和模型选择

统计推理法

演示使用SciPy功能进行统计推断的IPython笔记本

笔记本电脑	描述
尖刺的	SciPy是构建在Python的Numpy扩展上的数学算法和便利函数的集合。它为用户提供用于操作和可视化数据的高级命令和类，从而大大增强了交互式Python会话的功能
effect-size	通过分析男性和女性的身高差异，探索量化效应大小的统计数据。使用行为危险因素监测系统(BRFSS)的数据来估计美国成年女性和男性的平均身高和标准偏差
sampling	利用BRFSS数据分析美国男女平均体重探索随机抽样
hypothesis	通过分析头胎婴儿与其他婴儿的差异来探索假设检验

熊猫

演示熊猫功能的IPython笔记本

笔记本电脑	描述
pandas	用Python编写的用于数据操作和分析的软件库。提供用于操作数值表和时间序列的数据结构和操作
github-data-wrangling	通过分析中的GitHub数据，了解如何加载、清理、合并和要素工程`Viz`回购
Introduction-to-Pandas	熊猫简介
Introducing-Pandas-Objects	了解熊猫对象
Data Indexing and Selection	了解有关熊猫中的数据索引和选择的信息
Operations-in-Pandas	了解有关在熊猫中操作数据的信息
Missing-Values	了解有关处理熊猫中丢失的数据的信息
Hierarchical-Indexing	了解有关熊猫中的分层索引的信息
Concat-And-Append	了解有关组合数据集的信息：在熊猫中合并和追加
Merge-and-Join	了解有关组合数据集的信息：在熊猫中合并和连接
Aggregation-and-Grouping	了解有关在熊猫中聚合和分组的信息
Pivot-Tables	了解有关熊猫中的透视表的信息
Working-With-Strings	了解有关熊猫中的矢量化字符串操作的信息
Working-with-Time-Series	了解有关在熊猫中使用时间序列的信息
Performance-Eval-and-Query	了解高性能熊猫：熊猫中的eval()和query()

Matplotlib

演示matplotlib功能的IPython笔记本

笔记本电脑	描述
matplotlib	Python 2D绘图库，以各种硬拷贝格式和跨平台交互环境生成出版物质量数据
matplotlib-applied	将matplotlib可视化应用于Kaggle比赛以进行探索性数据分析。了解如何创建条形图、直方图、子图2格网、归一化图、散点图、子图和核密度估计图
Introduction-To-Matplotlib	Matplotlib简介
Simple-Line-Plots	了解有关Matplotlib中的简单线条图的信息
Simple-Scatter-Plots	了解有关Matplotlib中的简单散点图的信息
Errorbars.ipynb	了解有关在Matplotlib中可视化错误的信息
Density-and-Contour-Plots	了解Matplotlib中的密度和等高线绘图
Histograms-and-Binnings	了解有关Matplotlib中的直方图、二进制和密度的信息
Customizing-Legends	了解有关在Matplotlib中自定义地块图例的信息
Customizing-Colorbars	了解有关在Matplotlib中自定义色带的信息
Multiple-Subplots	了解有关Matplotlib中的多个子图的信息
Text-and-Annotation	了解有关Matplotlib中的文本和注记的信息
Customizing-Ticks	了解有关在Matplotlib中自定义刻度的信息
Settings-and-Stylesheets	了解有关自定义Matplotlib的信息：配置和样式表
Three-Dimensional-Plotting	了解有关在Matplotlib中进行三维打印的信息
Geographic-Data-With-Basemap	了解有关在Matplotlib中使用底图的地理数据的信息
Visualization-With-Seaborn	了解有关海运可视化的信息

麻木的

演示NumPy功能的IPython笔记本

笔记本电脑	描述
numpy	添加了对大型多维数组和矩阵的Python支持，以及对这些数组进行运算的大型高级数学函数库
Introduction-to-NumPy	NumPy简介
Understanding-Data-Types	了解有关Python中的数据类型的信息
The-Basics-Of-NumPy-Arrays	了解NumPy阵列的基础知识
Computation-on-arrays-ufuncs	了解有关NumPy数组的计算：泛函
Computation-on-arrays-aggregates	了解有关聚合的信息：NumPy中的最小值、最大值以及介于两者之间的所有内容
Computation-on-arrays-broadcasting	了解有关数组计算的信息：在NumPy中广播
Boolean-Arrays-and-Masks	了解有关NumPy中的比较、掩码和布尔逻辑的信息
Fancy-Indexing	了解NumPy中的奇特索引
Sorting	了解有关在NumPy中对数组进行排序的信息
Structured-Data-NumPy	了解结构化数据：NumPy的结构化数组

Python-Data

IPython笔记本，演示面向数据分析的Python功能

笔记本电脑	描述
data structures	使用元组、列表、字典、集学习Python基础知识
data structure utilities	学习Python操作，如切片、范围、xrange、二等分、排序、排序、反转、枚举、压缩、列表理解
functions	了解更高级的Python功能：函数作为对象、lambda函数、闭包、args、*kwargs curying、生成器、生成器表达式、itertools
datetime	了解如何使用Python日期和时间：datetime、strftime、strptime、timeDelta
logging	了解有关使用RotatingFileHandler和TimedRotatingFileHandler进行Python日志记录的信息
pdb	了解如何使用交互式源代码调试器在Python中进行调试
unit tests	了解如何在Python中使用NOSE单元测试进行测试

Kaggle-and-Business分析

中使用的IPython笔记本kaggle竞争和业务分析

笔记本电脑	描述
titanic	预测泰坦尼克号上的生还者。学习数据清理、探索性数据分析和机器学习
churn-analysis	预测客户流失。练习逻辑回归、梯度增强分类器、支持向量机、随机森林和k近邻。包括对念力矩阵、ROC图、特征重要性、预测概率和校准/识别的讨论

电光

演示电光和HDFS功能的IPython笔记本

笔记本电脑	描述
spark	内存集群计算框架，对于某些应用程序速度最高可提高100倍，并且非常适合机器学习算法
hdfs	在大型群集中跨计算机可靠地存储非常大的文件

MapReduce-Python

演示使用mrjob功能的Hadoop MapReduce的IPython笔记本

笔记本电脑	描述
mapreduce-python	在Python中运行MapReduce作业，在本地或Hadoop群集上执行作业。演示Python代码中的Hadoop流以及单元测试和mrjob用于分析Elastic MapReduce上的Amazon S3存储桶日志的配置文件。Disco是另一个基于python的替代方案。

AWS

演示Amazon Web服务(AWS)和AWS工具功能的IPython笔记本

另请查看：

SAWS：增强型AWS命令行界面(CLI)
Awesome AWS：库、开源Repos、指南、博客和其他资源的精选列表

笔记本电脑	描述
boto	针对Python的官方AWS SDK
s3cmd	通过命令行与S3交互
s3distcp	组合较小的文件，并通过接受模式和目标文件将它们聚合在一起。S3DistCp还可用于将大量数据从S3传输到您的Hadoop群集
s3-parallel-put	将多个文件并行上传到S3
redshift	充当建立在大规模并行处理(MPP)技术之上的快速数据仓库
kinesis	通过每秒处理数千个数据流的能力实时流式传输数据
lambda	运行代码以响应事件，自动管理计算资源

命令

IPython笔记本，演示Linux、Git等的各种命令行

笔记本电脑	描述
linux	类UNIX且大多兼容POSIX的计算机操作系统。磁盘使用情况、拆分文件、grep、sed、curl、查看正在运行的进程、终端语法突出显示和Vim
anaconda	发布用于大规模数据处理、预测分析和科学计算的Python编程语言，旨在简化包管理和部署
ipython notebook	基于Web的交互式计算环境，您可以在其中将代码执行、文本、数学、绘图和富媒体组合到单个文档中
git	强调速度、数据完整性并支持分布式非线性工作流的分布式修订控制系统
ruby	用于与AWS命令行和Jekyll交互，Jekyll是可托管在GitHub页面上的博客框架
jekyll	简单、支持博客的静电站点生成器，适用于个人、项目或组织站点。呈现Markdown或Textile and Liquid模板，并生成一个完整的静电网站，准备好由Apache HTTP Server、NGINX或其他Web服务器提供服务
pelican	基于Python的Jekyll替代方案
django	高级Python Web框架，鼓励快速开发和干净、实用的设计。它对共享报告/分析和博客很有用。较轻的替代方案包括Pyramid，Flask，Tornado，以及Bottle

杂项

演示各种功能的IPython笔记本

笔记本电脑	描述
regex	数据争论中有用的正则表达式小抄
algorithmia	Algorithmia是一个算法市场。本笔记本展示了4种不同的算法：人脸检测、内容摘要、潜在狄利克雷分配和光学字符识别

笔记本-安装

python

Anaconda是Python编程语言的免费发行版，用于大规模数据处理、预测分析和科学计算，旨在简化包管理和部署

按照说明进行安装Anaconda或者更轻的miniconda

设备-设置

有关设置数据分析开发环境的详细说明、脚本和工具，请参阅dev-setup回购

跑步-笔记本

要查看交互式内容或修改IPython笔记本中的元素，必须首先克隆或下载存储库，然后再运行笔记本。有关IPython笔记本的更多信息可以找到here.

$ git clone https://github.com/donnemartin/data-science-ipython-notebooks.git
$ cd data-science-ipython-notebooks
$ jupyter notebook

使用Python 2.7.x测试的笔记本电脑

学分

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython韦斯·麦金尼(Wes McKinney)著
PyCon 2015 Scikit-learn Tutorial杰克·范德普拉斯(Jack Vanderplas)著
Python Data Science Handbook杰克·范德普拉斯(Jack Vanderplas)著
Parallel Machine Learning with scikit-learn and IPython奥利维尔·格里塞尔(Olivier Grisel)著
Statistical Interference Using Computational Methods in Python艾伦·唐尼(Allen Downey)著
TensorFlow Examples艾梅里克·达米恩(Aymeric Damien)著
TensorFlow Tutorials作者：Parag K Mital
TensorFlow Tutorials内森·林茨(Nathan Lintz)著
TensorFlow Tutorials亚历山大·R·约翰逊(Alexander R Johansen)著
TensorFlow Book尼尚特·舒克拉(Nishant Shukla)著
Summer School 2015作者：Mila-UdeM
Keras tutorials瓦莱里奥·马吉奥(Valerio Maggio)著
Kaggle
Yhat Blog

贡献

欢迎投稿！有关错误报告或请求，请submit an issue

联系方式-信息

请随时与我联系，讨论任何问题、问题或评论

电子邮件：donne.martin@gmail.com
推特：@donne_martin
GitHub：donnemartin
LinkedIn：donnemartin
网站：donnemartin.com

许可证

这个存储库包含各种内容；有些是由Donne Martin开发的，有些是来自第三方的。第三方内容在这些方提供的许可下分发

由Donne Martin开发的内容按照以下许可证分发：

我在开放源码许可下向您提供此存储库中的代码和资源。因为这是我的个人存储库，您获得的我的代码和资源的许可证来自我，而不是我的雇主(Facebook)

Copyright 2015 Donne Martin

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

   http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

Python 数据分析、人工智能

Python 预测银行信用卡客户是否流失

2020年12月8日 Python实用宝典留下评论

1.题目背景

越来越多的客户不再使用信用卡服务，银行的经理对此感到不安。如果有人能为他们预测哪些客户即将流失，他们将不胜感激，因为这样他们可以主动向客户提供更好的服务，并挽回这些即将流失的客户。

2.数据集

该数据集由10,000个客户组成，其中包含了他们的年龄，工资，婚姻状况，信用卡限额，信用卡类别等。

不过，这里面只有16%的客户是流失的，因此拿来预测客户是否会流失有点难度。

在Python实用宝典后台回复 预测客户流失 下载这份数据和源代码。

译自kaggle并对原文进行了修改和补充，感谢原作者：

https://www.kaggle.com/thomaskonstantin/bank-churn-data-exploration-and-churn-prediction/

3.代码与分析

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，可以直接安装Anaconda：Python数据分析与挖掘好帮手—Anaconda，它内置了Python和pip.

此外，推荐大家用VSCode编辑器，因为它可以在编辑器下方的终端运行命令安装依赖模块：Python 编程的最好搭档—VSCode 详细指南。

本文具备流程性，建议使用 VSCode 的 Jupiter Notebook 扩展，新建一个名为 test.ipynb 的文件，跟着教程一步步走下去。

Windows环境下打开Cmd(开始—运行—CMD)，苹果系统环境下请打开Terminal(command+空格输入Terminal)，准备开始输入命令安装依赖。

所需依赖：

pip install numpy
pip install pandas
pip install plotly
pip install scikit-learn
pip install scikit-plot

# 这个需要conda
conda install -c conda-forge imbalanced-learn

3.1 导入需要的模块

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as ex
import plotly.graph_objs as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
import plotly.offline as pyo
pyo.init_notebook_mode()
sns.set_style('darkgrid')
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split,cross_val_score
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score as f1
from sklearn.metrics import confusion_matrix
import scikitplot as skplt

plt.rc('figure',figsize=(18,9))
%pip install imbalanced-learn
from imblearn.over_sampling import SMOTE

遇到任何 No module named “XXX” 都可以尝试pip install一下。

如果pip install没解决，可以谷歌/百度一下，看看别人是怎么解决的。

3.2 加载数据

c_data = pd.read_csv('./BankChurners.csv')
c_data = c_data[c_data.columns[:-2]]
c_data.head(3)

这里去掉了最后两列的朴素贝叶斯分类结果。

显示前三行数据，可以看到所有的字段：

3.3 探索性数据分析

下面看看这20+列数据中，哪一些是对我们有用的。

首先，我想知道数据集中的客户年龄分布：

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Customer_Age'],name='Age Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Customer_Age'],name='Age Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of Customer Ages")
fig.show()

可以看到，客户的年龄分布大致遵循正态分布，因此使用可以在正态假设下进一步使用年龄特征。

同样滴，我想知道性别分布如何：

ex.pie(c_data,names='Gender',title='Propotion Of Customer Genders')

可见，在我们的数据集中，女性的样本比男性更多，但是差异的百分比不是那么显著，所以我们可以说性别是均匀分布的。

每个客户的家庭人数的分布怎么样？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Dependent_count'],name='Dependent count Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Dependent_count'],name='Dependent count Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of Dependent counts (close family size)")
fig.show()

可见，它也是大致符合正态分布的，偏右一点。

客户的受教育水平如何？

ex.pie(c_data,names='Education_Level',title='Propotion Of Education Levels')

假设大多数教育程度不明(Unknown)的顾客都没有接受过任何教育。我们可以指出，超过70%的顾客都受过正规教育，其中约35%的人受教育程度达到硕士以上水平，45%的人达到本科以上水准。

他们的婚姻状态如何？

ex.pie(c_data,names='Marital_Status',title='Propotion Of Different Marriage Statuses')

看来，这家银行几乎一半的客户都是已婚人士，有趣的是，另一半客户几乎都是单身人士，另外只有7%的客户离婚了。

看看收入分布和卡片类型的分布：

ex.pie(c_data,names='Income_Category',title='Propotion Of Different Income Levels')

ex.pie(c_data,names='Card_Category',title='Propotion Of Different Card Categories')

可见大部分人的年收入处于60K美元以下。

在持有的卡片的类型上，蓝卡占了绝大多数。

每月账单数量有没有特征？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Months_on_book'],name='Months on book Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Months_on_book'],name='Months on book Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of months the customer is part of the bank")
fig.show()

可以看到中间的峰值特别高，显然这个指标不是正态分布的。

每位客户持有的银行业务数量有没有特征呢？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Total_Relationship_Count'],name='Total no. of products Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Total_Relationship_Count'],name='Total no. of products Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of Total no. of products held by the customer")
fig.show()

基本上都是均匀分布的，显然这个指标对于我们而言也没太大意义。

用户不活跃月份数量有没有好用的特征？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Months_Inactive_12_mon'],name='number of months inactive Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Months_Inactive_12_mon'],name='number of months inactive Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of the number of months inactive in the last 12 months")
fig.show()

这个似乎有点用处，会不会越不活跃的用户越容易流失呢？

信用卡额度的分布如何？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Credit_Limit'],name='Credit_Limit Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Credit_Limit'],name='Credit_Limit Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of the Credit Limit")
fig.show()

大部分人的额度都在0到10k之间，这比较正常，暂时看不出和流失有什么关系。

客户总交易额的分布怎么样？

fig = make_subplots(rows=2, cols=1)

tr1=go.Box(x=c_data['Total_Trans_Amt'],name='Total_Trans_Amt Box Plot',boxmean=True)
tr2=go.Histogram(x=c_data['Total_Trans_Amt'],name='Total_Trans_Amt Histogram')

fig.add_trace(tr1,row=1,col=1)
fig.add_trace(tr2,row=2,col=1)

fig.update_layout(height=700, width=1200, title_text="Distribution of the Total Transaction Amount (Last 12 months)")
fig.show()

这个有点意思，总交易额的分布体现出“多组”分布，如果我们根据这个指标将客户聚类为不同的组别，看他们之间的相似性，并作出不同的画线，也许对我们最终的流失分析有一定的意义。

接下来，最重要的流失用户分布：

ex.pie(c_data,names='Attrition_Flag',title='Proportion of churn vs not churn customers')

我们可以看到，只有16%的数据样本代表流失客户，在接下来的步骤中，我将使用SMOTE对流失样本进行采样，使其与常规客户的样本大小匹配，以便给后面选择的模型一个更好的机会来捕捉小细节。

3.4 数据预处理

使用SMOTE模型前，需要根据不同的特征对数据进行One Hot编码：

c_data.Attrition_Flag = c_data.Attrition_Flag.replace({'Attrited Customer':1,'Existing Customer':0})
c_data.Gender = c_data.Gender.replace({'F':1,'M':0})
c_data = pd.concat([c_data,pd.get_dummies(c_data['Education_Level']).drop(columns=['Unknown'])],axis=1)
c_data = pd.concat([c_data,pd.get_dummies(c_data['Income_Category']).drop(columns=['Unknown'])],axis=1)
c_data = pd.concat([c_data,pd.get_dummies(c_data['Marital_Status']).drop(columns=['Unknown'])],axis=1)
c_data = pd.concat([c_data,pd.get_dummies(c_data['Card_Category']).drop(columns=['Platinum'])],axis=1)
c_data.drop(columns = ['Education_Level','Income_Category','Marital_Status','Card_Category','CLIENTNUM'],inplace=True)

显示热力图：

sns.heatmap(c_data.corr('pearson'),annot=True)

3.5 SMOTE模型采样

SMOTE模型经常用于解决数据不平衡的问题，它通过添加生成的少数类样本改变不平衡数据集的数据分布，是改善不平衡数据分类模型性能的流行方法之一。

oversample = SMOTE()
X, y = oversample.fit_resample(c_data[c_data.columns[1:]], c_data[c_data.columns[0]])
usampled_df = X.assign(Churn = y)
ohe_data =usampled_df[usampled_df.columns[15:-1]].copy()
usampled_df = usampled_df.drop(columns=usampled_df.columns[15:-1])
sns.heatmap(usampled_df.corr('pearson'),annot=True)

3.6 主成分分析

我们将使用主成分分析来降低单次编码分类变量的维数，从而降低方差。同时使用几个主成分而不是几十个单次编码特征将帮助我构建一个更好的模型。

N_COMPONENTS = 4

pca_model = PCA(n_components = N_COMPONENTS )

pc_matrix = pca_model.fit_transform(ohe_data)

evr = pca_model.explained_variance_ratio_
cumsum_evr = np.cumsum(evr)

ax = sns.lineplot(x=np.arange(0,len(cumsum_evr)),y=cumsum_evr,label='Explained Variance Ratio')
ax.set_title('Explained Variance Ratio Using {} Components'.format(N_COMPONENTS))
ax = sns.lineplot(x=np.arange(0,len(cumsum_evr)),y=evr,label='Explained Variance Of Component X')
ax.set_xticks([i for i in range(0,len(cumsum_evr))])
ax.set_xlabel('Component number #')
ax.set_ylabel('Explained Variance')
plt.show()

usampled_df_with_pcs = pd.concat([usampled_df,pd.DataFrame(pc_matrix,columns=['PC-{}'.format(i) for i in range(0,N_COMPONENTS)])],axis=1)
usampled_df_with_pcs

特征变得越来越明显：

sns.heatmap(usampled_df_with_pcs.corr('pearson'),annot=True)

4.模型选择及测试

选择出以下特征划分训练集并进行训练：

X_features = ['Total_Trans_Ct','PC-3','PC-1','PC-0','PC-2','Total_Ct_Chng_Q4_Q1','Total_Relationship_Count']

X = usampled_df_with_pcs[X_features]
y = usampled_df_with_pcs['Churn']

train_x,test_x,train_y,test_y = train_test_split(X,y,random_state=42)

4.1 交叉验证

分别看看随机森林、AdaBoost和SVM模型三种模型的表现如何：

rf_pipe = Pipeline(steps =[ ('scale',StandardScaler()), ("RF",RandomForestClassifier(random_state=42)) ])
ada_pipe = Pipeline(steps =[ ('scale',StandardScaler()), ("RF",AdaBoostClassifier(random_state=42,learning_rate=0.7)) ])
svm_pipe = Pipeline(steps =[ ('scale',StandardScaler()), ("RF",SVC(random_state=42,kernel='rbf')) ])


f1_cross_val_scores = cross_val_score(rf_pipe,train_x,train_y,cv=5,scoring='f1')
ada_f1_cross_val_scores=cross_val_score(ada_pipe,train_x,train_y,cv=5,scoring='f1')
svm_f1_cross_val_scores=cross_val_score(svm_pipe,train_x,train_y,cv=5,scoring='f1')

plt.subplot(3,1,1)
ax = sns.lineplot(x=range(0,len(f1_cross_val_scores)),y=f1_cross_val_scores)
ax.set_title('Random Forest Cross Val Scores')
ax.set_xticks([i for i in range(0,len(f1_cross_val_scores))])
ax.set_xlabel('Fold Number')
ax.set_ylabel('F1 Score')
plt.show()
plt.subplot(3,1,2)
ax = sns.lineplot(x=range(0,len(ada_f1_cross_val_scores)),y=ada_f1_cross_val_scores)
ax.set_title('Adaboost Cross Val Scores')
ax.set_xticks([i for i in range(0,len(ada_f1_cross_val_scores))])
ax.set_xlabel('Fold Number')
ax.set_ylabel('F1 Score')
plt.show()
plt.subplot(3,1,3)
ax = sns.lineplot(x=range(0,len(svm_f1_cross_val_scores)),y=svm_f1_cross_val_scores)
ax.set_title('SVM Cross Val Scores')
ax.set_xticks([i for i in range(0,len(svm_f1_cross_val_scores))])
ax.set_xlabel('Fold Number')
ax.set_ylabel('F1 Score')
plt.show()

看看三种模型都有什么不同的表现：

看得出来随机森林 F1分数是最高的。

4.2 模型预测

对测试集进行预测，看看三种模型的效果：

rf_pipe.fit(train_x,train_y)
rf_prediction = rf_pipe.predict(test_x)

ada_pipe.fit(train_x,train_y)
ada_prediction = ada_pipe.predict(test_x)

svm_pipe.fit(train_x,train_y)
svm_prediction = svm_pipe.predict(test_x)

print('F1 Score of Random Forest Model On Test Set - {}'.format(f1(rf_prediction,test_y)))
print('F1 Score of AdaBoost Model On Test Set - {}'.format(f1(ada_prediction,test_y)))
print('F1 Score of SVM Model On Test Set - {}'.format(f1(svm_prediction,test_y)))

4.3 对原始数据（采样前）进行模型预测

接下来对原始数据进行模型预测：

ohe_data =c_data[c_data.columns[16:]].copy()
pc_matrix = pca_model.fit_transform(ohe_data)
original_df_with_pcs = pd.concat([c_data,pd.DataFrame(pc_matrix,columns=['PC-{}'.format(i) for i in range(0,N_COMPONENTS)])],axis=1)

unsampled_data_prediction_RF = rf_pipe.predict(original_df_with_pcs[X_features])
unsampled_data_prediction_ADA = ada_pipe.predict(original_df_with_pcs[X_features])
unsampled_data_prediction_SVM = svm_pipe.predict(original_df_with_pcs[X_features])

效果如下：

F1最高的随机森林模型有0.63分，偏低，这也比较正常，毕竟在这种分布不均的数据集中，查全率是很难做到很高的。

4.4 结果

让我们看看最终在原数据上使用随机森林模型的运行结果：

ax = sns.heatmap(confusion_matrix(unsampled_data_prediction_RF,original_df_with_pcs['Attrition_Flag']),annot=True,cmap='coolwarm',fmt='d')
ax.set_title('Prediction On Original Data With Random Forest Model Confusion Matrix')
ax.set_xticklabels(['Not Churn','Churn'],fontsize=18)
ax.set_yticklabels(['Predicted Not Churn','Predicted Churn'],fontsize=18)

plt.show()

可见，没有流失的客户命中了7709人，未命中791人。

流失客户命中了1130人，未命中497人。

整体而言，是一个比较优秀的模型了。

我们的文章到此就结束啦，如果你喜欢今天的 Python 教程，请持续关注Python实用宝典。

有任何问题，可以在公众号后台回复：加群，回答相应验证信息，进入互助群询问。

原创不易，希望你能在下面点个赞和在看支持我继续创作，谢谢！

我要打赏

Python实用宝典 ( pythondict.com )
不只是一个宝典
欢迎关注公众号：Python实用宝典