编程 Python

python自动分箱,计算woe,iv的实例代码

Posted in Python onNovember 22, 2019

笔者之前用R开发评分卡时，需要进行分箱计算woe及iv值，采用的R包是smbinning,它可以自动进行分箱。近期换用python开发，也想实现自动分箱功能，找到了一个woe包，地址https://pypi.org/project/woe/，可以直接 pip install woe安装。

由于此woe包官网介绍及给的例子不是很好理解，关于每个函数的使用也没有很详细的说明，经过一番仔细探究后以此文记录一下该woe包的使用及其计算原理。

例子

官方给的例子不是很好理解，以下是我写的一个使用示例。以此例来说明各主要函数的使用方法。计算woe的各相关函数主要在feature_process.py中定义。

import woe.feature_process as fp
import woe.eval as eval
 
#%% woe分箱, iv and transform
data_woe = data #用于存储所有数据的woe值
civ_list = []
n_positive = sum(data['target'])
n_negtive = len(data) - n_positive
for column in list(data.columns[1:]):
 if data[column].dtypes == 'object':
 civ = fp.proc_woe_discrete(data, column, n_positive, n_negtive, 0.05*len(data), alpha=0.05)
 else:  
 civ = fp.proc_woe_continuous(data, column, n_positive, n_negtive, 0.05*len(data), alpha=0.05)
 civ_list.append(civ)
 data_woe[column] = fp.woe_trans(data[column], civ)
 
civ_df = eval.eval_feature_detail(civ_list,'output_feature_detail_0315.csv')
#删除iv值过小的变量
iv_thre = 0.001
iv = civ_df[['var_name','iv']].drop_duplicates()
x_columns = iv.var_name[iv.iv > iv_thre]

计算分箱，woe,iv

核心函数主要是freature_process.proc_woe_discrete()与freature_process.proc_woe_continuous()，分别用于计算连续变量与离散变量的woe。它们的输入形式相同：

proc_woe_discrete(df,var,global_bt,global_gt,min_sample,alpha=0.01)

proc_woe_continuous(df,var,global_bt,global_gt,min_sample,alpha=0.01)

输入：

df: DataFrame，要计算woe的数据，必须包含'target'变量，且变量取值为{0，1}

var:要计算woe的变量名

global_bt:全局变量bad total。df的正样本数量

global_gt:全局变量good total。df的负样本数量

min_sample:指定每个bin中最小样本量，一般设为样本总量的5%。

alpha:用于自动计算分箱时的一个标准，默认0.01.如果iv_划分>iv_不划分*（1+alpha)则划分。

输出：一个自定义的InfoValue类的object，包含了分箱的一切结果信息。

该类定义见以下一段代码。

class InfoValue(object):
 '''
 InfoValue Class
 '''
 def __init__(self):
 self.var_name = []
 self.split_list = []
 self.iv = 0
 self.woe_list = []
 self.iv_list = []
 self.is_discrete = 0
 self.sub_total_sample_num = []
 self.positive_sample_num = []
 self.negative_sample_num = []
 self.sub_total_num_percentage = []
 self.positive_rate_in_sub_total = []
 self.negative_rate_in_sub_total = []
 
 def init(self,civ):
 self.var_name = civ.var_name
 self.split_list = civ.split_list
 self.iv = civ.iv
 self.woe_list = civ.woe_list
 self.iv_list = civ.iv_list
 self.is_discrete = civ.is_discrete
 self.sub_total_sample_num = civ.sub_total_sample_num
 self.positive_sample_num = civ.positive_sample_num
 self.negative_sample_num = civ.negative_sample_num
 self.sub_total_num_percentage = civ.sub_total_num_percentage
 self.positive_rate_in_sub_total = civ.positive_rate_in_sub_total
 self.negative_rate_in_sub_total = civ.negative_rate_in_sub_total

打印分箱结果

eval.eval_feature_detail(Info_Value_list,out_path=False)

输入：

Info_Value_list:存储各变量分箱结果(proc_woe_continuous/discrete的返回值）的List.

out_path:指定的分箱结果存储路径，输出为csv文件

输出：

各变量分箱结果的DataFrame。各列分别包含如下信息：


var_name	变量名
split_list	划分区间
sub_total_sample_num	该区间总样本数
positive_sample_num	该区间正样本数
negative_sample_num	该区间负样本数
sub_total_num_percentage	该区间总占比
positive_rate_in_sub_total	该区间正样本占总正样本比例
woe_list	woe
iv_list	该区间iv
iv	该变量iv(各区间iv之和）

输出结果一个示例（截取部分）：

python自动分箱,计算woe,iv的实例代码

woe转换

得到分箱及woe,iv结果后，对原数据进行woe转换，主要用以下函数

woe_trans(dvar,civ): replace the var value with the given woe value

输入：

dvar: 要转换的变量，Series

civ: proc_woe_discrete或proc_woe_discrete输出的分箱woe结果，自定义的InfoValue类

输出：

var: woe转换后的变量，Series

分箱原理

该包中对变量进行分箱的原理类似于二叉决策树，只是决定如何划分的目标函数是iv值。

1）连续变量分箱

首先简要描述分箱主要思想：

1.初始化数据集D =D0为全量数据。转步骤2

2.对于D，将数据按从小到大排序并按数量等分为10份，记录各划分点。计算不进行仍何划分时的iv0，转步骤3.

3.遍历各划分点，计算利用各点进行二分时的iv。

如果最大iv>iv0*(1+alpha)（用户给定，默认0.01）: 则进行划分，且最大iv对应的即确定为此次划分点。它将D划分为左右两个结点，数据集分别为DL, DR.转步骤4.

否则：停止。

4.分别令D=DL,D=DR,重复步骤2.

为了便于理解，上面简化了一些条件。实际划分时还设计到一些限制条件，如不满足会进行区间合并。

主要限制条件有以下2个：

a.每个bin的数量占比>min_sample(用户给定）

b.每个bin的target取值个数>1，即每个bin必须同时包含正负样本。

2）连续变量分箱

对于离散变量分箱后续补充 to be continued...

以上这篇python自动分箱,计算woe,iv的实例代码就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python自动分箱,计算woe,iv的实例代码

- Author -

kidxu

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python解释执行原理分析

Aug 22 Python

Python编程生成随机用户名及密码的方法示例

May 05 Python

Django objects的查询结果转化为json的三种方式的方法

Nov 07 Python

对django views中 request, response的常用操作详解

Jul 17 Python

Python 用matplotlib画以时间日期为x轴的图像

Aug 06 Python

Python绘制二维曲线的日常应用详解

Dec 04 Python

python两个_多个字典合并相加的实例代码

Dec 26 Python

Python常用库大全及简要说明

Jan 17 Python

Python阶乘求和的代码详解

Feb 14 Python

Python selenium自动化测试模型图解

Apr 15 Python

使用pyplot.matshow()函数添加绘图标题

Jun 16 Python

python人工智能human learn绘图可创建机器学习模型

Nov 23 Python

python创建学生管理系统

Nov 22 #Python

Python如何计算语句执行时间

Nov 22 #Python

python生成器用法实例详解

Nov 22 #Python

关于pandas的离散化,面元划分详解

Nov 22 #Python

Python协程 yield与协程greenlet简单用法示例

Nov 22 #Python

使用pandas实现连续数据的离散化处理方式(分箱操作)

Nov 22 #Python

在OpenCV里使用Camshift算法的实现

Nov 22 #Python

You might like

php不允许用户提交空表单(php空值判断)

2013/11/12 PHP

jQuery+PHP+ajax实现微博加载更多内容列表功能

2014/06/27 PHP

CMS中PHP判断系统是否已经安装的方法示例

2014/07/26 PHP

HTML中嵌入PHP的简单方法

2016/02/16 PHP

Laravel实现定时任务的示例代码

2017/08/10 PHP

thinkphp5 migrate数据库迁移工具

2018/02/20 PHP

HR vs CL BO3 第二场 2.13

2021/03/10 DOTA

让IE8支持DOM 2（不用框架！）

2009/12/31 Javascript

JQuery团队打造的javascript单元测试工具QUnit介绍

2010/02/26 Javascript

JS实现self的resend

2010/07/22 Javascript

JQuery中对服务器控件 DropdownList, RadioButtonList, CheckboxList的操作总结

2011/06/28 Javascript

javascript的propertyIsEnumerable()方法使用介绍

2014/04/09 Javascript

原生js的弹出层且其内的窗口居中

2014/05/14 Javascript

在JavaScript中正确引用bind方法的应用

2015/05/11 Javascript

PHP捕捉异常中断的方法

2016/10/24 Javascript

Vue.js实现无限加载与分页功能开发

2016/11/03 Javascript

详解js的事件代理（委托）

2016/12/22 Javascript

angular实现spa单页面应用实例

2017/07/10 Javascript

js实现rem自动匹配计算font-size的示例

2017/11/18 Javascript

基于vue2.x的电商图片放大镜插件的使用

2018/01/22 Javascript

vue异步加载高德地图的实现

2018/06/19 Javascript

基于javascript的无缝滚动动画1

2020/08/07 Javascript

JavaScript实现鼠标移入随机变换颜色

2020/11/24 Javascript

python33 urllib2使用方法细节讲解

2013/12/03 Python

Python中给List添加元素的4种方法分享

2014/11/28 Python

简单介绍Python中的JSON模块

2015/04/08 Python

Python3爬虫学习之应对网站反爬虫机制的方法分析

2018/12/12 Python

Python Numpy库常见用法入门教程

2020/01/16 Python

浅谈HTML5 defer和async的区别

2016/06/07 HTML / CSS

拉斯维加斯城市观光通行证：Las Vegas Pass

2019/05/21 全球购物

竞选班长演讲稿500字

2014/08/22 职场文书

教师党员自我剖析材料

2014/09/29 职场文书

2014年学校食堂工作总结

2014/11/25 职场文书

社区法制宣传日活动总结

2015/05/05 职场文书

2015年污水处理厂工作总结

2015/05/26 职场文书

Elasticsearch 聚合查询和排序

2022/04/19 Python