编程 Python

python实现连续变量最优分箱详解--CART算法

Posted in Python onNovember 22, 2019

关于变量分箱主要分为两大类：有监督型和无监督型

对应的分箱方法：

A. 无监督：(1) 等宽 (2) 等频 (3) 聚类

B. 有监督：(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3) 信用评分建模的IV最大化分箱等

本篇使用python，基于CART算法对连续变量进行最优分箱

由于CART是决策树分类算法，所以相当于是单变量决策树分类。

简单介绍下理论：

CART是二叉树，每次仅进行二元分类，对于连续性变量，方法是依次计算相邻两元素值的中位数，将数据集一分为二，计算该点作为切割点时的基尼值较分割前的基尼值下降程度，每次切分时，选择基尼下降程度最大的点为最优切分点，再将切分后的数据集按同样原则切分，直至终止条件为止。

关于CART分类的终止条件：视实际情况而定，我的案例设置为 a.每个叶子节点的样本量>=总样本量的5% b.内部节点再划分所需的最小样本数>=总样本量的10%

python代码实现：

import pandas as pd
import numpy as np
 
#读取数据集，至少包含变量和target两列
sample_set = pd.read_excel('/数据样本.xlsx')
 
def calc_score_median(sample_set, var):
  '''
  计算相邻评分的中位数，以便进行决策树二元切分
  param sample_set: 待切分样本
  param var: 分割变量名称
  '''
  var_list = list(np.unique(sample_set[var]))
  var_median_list = []
  for i in range(len(var_list) -1):
    var_median = (var_list[i] + var_list[i+1]) / 2
    var_median_list.append(var_median)
  return var_median_list

var表示需要进行分箱的变量名，返回一个样本变量中位数的list

def choose_best_split(sample_set, var, min_sample):
  '''
  使用CART分类决策树选择最好的样本切分点
  返回切分点
  param sample_set: 待切分样本
  param var: 分割变量名称
  param min_sample: 待切分样本的最小样本量(限制条件)
  '''
  # 根据样本评分计算相邻不同分数的中间值
  score_median_list = calc_score_median(sample_set, var)
  median_len = len(score_median_list)
  sample_cnt = sample_set.shape[0]
  sample1_cnt = sum(sample_set['target'])
  sample0_cnt = sample_cnt- sample1_cnt
  Gini = 1 - np.square(sample1_cnt / sample_cnt) - np.square(sample0_cnt / sample_cnt)
  
  bestGini = 0.0; bestSplit_point = 0.0; bestSplit_position = 0.0
  for i in range(median_len):
    left = sample_set[sample_set[var] < score_median_list[i]]
    right = sample_set[sample_set[var] > score_median_list[i]]
    
    left_cnt = left.shape[0]; right_cnt = right.shape[0]
    left1_cnt = sum(left['target']); right1_cnt = sum(right['target'])
    left0_cnt = left_cnt - left1_cnt; right0_cnt = right_cnt - right1_cnt
    left_ratio = left_cnt / sample_cnt; right_ratio = right_cnt / sample_cnt
    
    if left_cnt < min_sample or right_cnt < min_sample:
      continue
    
    Gini_left = 1 - np.square(left1_cnt / left_cnt) - np.square(left0_cnt / left_cnt)
    Gini_right = 1 - np.square(right1_cnt / right_cnt) - np.square(right0_cnt / right_cnt)
    Gini_temp = Gini - (left_ratio * Gini_left + right_ratio * Gini_right)
    if Gini_temp > bestGini:
      bestGini = Gini_temp; bestSplit_point = score_median_list[i]
      if median_len > 1:
        bestSplit_position = i / (median_len - 1)
      else:
        bestSplit_position = i / median_len
    else:
      continue
        
  Gini = Gini - bestGini
  return bestSplit_point, bestSplit_position

min_sample 参数为最小叶子节点的样本阈值，如果小于该阈值则不进行切分，如前面所述设置为整体样本量的5%

返回的结果我这里只返回了最优分割点，如果需要返回其他的比如GINI值，可以自行添加。

def bining_data_split(sample_set, var, min_sample, split_list):
  '''
  划分数据找到最优分割点list
  param sample_set: 待切分样本
  param var: 分割变量名称
  param min_sample: 待切分样本的最小样本量(限制条件)
  param split_list: 最优分割点list
  '''
  split, position = choose_best_split(sample_set, var, min_sample)
  if split != 0.0:
    split_list.append(split)
  # 根据分割点划分数据集，继续进行划分
  sample_set_left = sample_set[sample_set[var] < split]
  sample_set_right = sample_set[sample_set[var] > split]
  # 如果左子树样本量超过2倍最小样本量，且分割点不是第一个分割点，则切分左子树
  if len(sample_set_left) >= min_sample * 2 and position not in [0.0, 1.0]:
    bining_data_split(sample_set_left, var, min_sample, split_list)
  else:
    None
  # 如果右子树样本量超过2倍最小样本量，且分割点不是最后一个分割点，则切分右子树
  if len(sample_set_right) >= min_sample * 2 and position not in [0.0, 1.0]:
    bining_data_split(sample_set_right, var, min_sample, split_list)
  else:
    None

split_list 参数是用来保存返回的切分点，每次切分后返回的切分点存入该list

在这里判断切分点分割的左子树和右子树是否满足“内部节点再划分所需的最小样本数>=总样本量的10%”的条件，如果满足则进行递归调用。

def get_bestsplit_list(sample_set, var):
  '''
  根据分箱得到最优分割点list
  param sample_set: 待切分样本
  param var: 分割变量名称
  '''
  # 计算最小样本阈值（终止条件）
  min_df = sample_set.shape[0] * 0.05
  split_list = []
  # 计算第一个和最后一个分割点
  bining_data_split(sample_set, var, min_df, split_list)
  return split_list

最后整合以下来个函数调用，返回一个分割点list。

可以使用sklearn库的决策树测试一下单变量分类对结果进行验证，在分类方法相同，剪枝条件一致的情况下结果是一致的。

以上这篇python实现连续变量最优分箱详解--CART算法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python实现连续变量最优分箱详解--CART算法

- Author -

贾杰森

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现ping的方法

Jul 06 Python

itchat和matplotlib的结合使用爬取微信信息的实例

Aug 25 Python

解决python nohup linux 后台运行输出的问题

May 11 Python

windows下兼容Python2和Python3的解决方法

Dec 05 Python

Python判断有效的数独算法示例

Feb 23 Python

详解Python的数据库操作（pymysql）

Apr 04 Python

给大家整理了19个pythonic的编程习惯(小结)

Sep 25 Python

python实时监控logstash日志代码

Apr 27 Python

基于SQLAlchemy实现操作MySQL并执行原生sql语句

Jun 10 Python

python机器学习Github已达8.9Kstars模型解释器LIME

Nov 23 Python

python 使用tkinter与messagebox写界面和弹窗

Mar 20 Python

python数字图像处理实现图像的形变与缩放

Jun 28 Python

pycharm运行scrapy过程图解

Nov 22 #Python

python迭代器常见用法实例分析

Nov 22 #Python

python自动分箱,计算woe,iv的实例代码

Nov 22 #Python

python创建学生管理系统

Nov 22 #Python

Python如何计算语句执行时间

Nov 22 #Python

python生成器用法实例详解

Nov 22 #Python

关于pandas的离散化,面元划分详解

Nov 22 #Python

You might like

Zend Guard一些常见问题解答

2008/09/11 PHP

PHP文件上传、客户端和服务器端加限制、抓取错误信息、完整步骤解析

2017/01/12 PHP

php实现的中秋博饼游戏之绘制骰子图案功能示例

2017/11/06 PHP

Prototype ObjectRange对象学习

2009/07/19 Javascript

jQuery实现按键盘方向键翻页特效

2015/03/18 Javascript

jQuery Validate表单验证入门学习

2015/12/18 Javascript

Bootstrap框架动态生成Web页面文章内目录的方法

2016/05/12 Javascript

javascript基础练习之翻转字符串与回文

2017/02/20 Javascript

javascript 使用正则test( )第一次是 true,第二次是false

2017/02/22 Javascript

JS实现获取汉字首字母拼音、全拼音及混拼音的方法

2017/11/14 Javascript

关于axios如何全局注册浅析

2018/01/14 Javascript

微信小程序WebSocket实现聊天对话功能

2018/07/06 Javascript

mac上配置Android环境变量的方法

2018/07/08 Javascript

Vue中 v-if 和v-else-if页面加载出现闪现的问题及解决方法

2018/10/12 Javascript

js 对象使用的小技巧实例分析

2019/11/08 Javascript

Element Notification通知的实现示例

2020/07/27 Javascript

vue swipeCell滑动单元格(仿微信)的实现示例

2020/09/14 Javascript

[01:23]2014DOTA2国际邀请赛球迷无处不在Ti现场世界杯受关注

2014/07/10 DOTA

在Apache服务器上同时运行多个Django程序的方法

2015/07/22 Python

python 爬虫一键爬取淘宝天猫宝贝页面主图颜色图和详情图的教程

2018/05/22 Python

Python实现的连接mssql数据库操作示例

2018/08/17 Python

Python3实现配置文件差异对比脚本

2019/11/18 Python

python 解决flask 图片在线浏览或者直接下载的问题

2020/01/09 Python

Python如何实现远程方法调用

2020/08/07 Python

Python xlrd/xlwt 创建excel文件及常用操作

2020/09/24 Python

python 实现IP子网计算

2021/02/18 Python

CSS3的resize属性使用初探

2015/09/27 HTML / CSS

博朗(Braun)俄罗斯官方商店：德国小家电品牌

2019/09/24 全球购物

what is the difference between ext2 and ext3

2013/11/03 面试题

总务岗位职责

2013/11/19 职场文书

学院书画协会部门岗位职责

2013/12/01 职场文书

女大学生自我鉴定

2013/12/09 职场文书

代理商会议邀请函

2014/01/27 职场文书

统计学教授推荐信

2014/09/18 职场文书

个人四风问题对照检查材料

2014/10/01 职场文书

2015年教师节广播稿

2015/08/19 职场文书