python实现二分类的卡方分箱示例


Posted in Python onNovember 22, 2019

解决的问题:

1、实现了二分类的卡方分箱;

2、实现了最大分组限定停止条件,和最小阈值限定停止条件;

问题,还不太清楚,后续补充。

1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%

算法扩展:

1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。

2、需要实现更多分类的卡方分箱算法;

具体代码如下:

# -*- coding: utf-8 -*-
"""
Created on Wed Nov 28 16:54:58 2018
@author: wolfly_fu
解决的问题:
1、实现了二分类的卡方分箱
2、实现了最大分组限定停止条件,和最小阈值限定停止条件;
问题,
1、自由度k,如何来确定?
算法扩展:
1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。
2、需要实现更多分类的卡方分箱算法
"""
 
import pandas as pd
import numpy as np
from scipy.stats import chi2
 
#导入数据
df = pd.read_csv(u'test.csv')
 
#计算卡方统计量
def cal_chi2(input_df, var_name, Y_name): ##二分类,,计算每个变量值的卡方统计量
  '''
  df = input_df[[var_name, Y_name]]
  var_values = sorted(list(set(df[var_name])))
  Y_values = sorted(list(set(df[Y_name])))
  #用循环的方式填充
  chi2_result = pd.DataFrame(index=var_values, columns=Y_values)  
  for var_value in var_values:
    for Y_value in Y_values:
      chi2_result.loc[var_value][Y_value] = \
      df[(df[var_name]==var_value)&(df[Y_name]==Y_value)][var_name].count()
  '''
  input_df = input_df[[var_name, Y_name]]  #取数据
  all_cnt = input_df[Y_name].count() #样本总数
  all_0_cnt = input_df[input_df[Y_name] == 0].shape[0] # 二分类的样本数量
  all_1_cnt = input_df[input_df[Y_name] == 1].shape[0]
  expect_0_ratio = all_0_cnt * 1.0 / all_cnt #样本分类比例
  expect_1_ratio = all_1_cnt * 1.0 / all_cnt 
  
  #对变量的每个值计算实际个数,期望个数,卡方统计量 
  var_values = sorted(list(set(input_df[var_name])))
  actual_0_cnt = []    # actual_0 该值,类别为0的数量
  actual_1_cnt = []    # actual_1 该值,类别为1的数量
  actual_all_cnt = []
  expect_0_cnt = []    # expect_0 类别0 的卡方值
  expect_1_cnt = []    # expect_1 类别1 的卡方值 
  chi2_value = []     # chi2_value 该组的卡方值
  
  for value in var_values:
    actual_0 = input_df[(input_df[var_name]==value)&(input_df[Y_name]==0)].shape[0] #该值,类别为0的数量
    actual_1 = input_df[(input_df[var_name]==value)&(input_df[Y_name]==1)].shape[0]
    actual_all = actual_0 + actual_1 #总数
    expect_0 = actual_all * expect_0_ratio #类别0 的 期望频率
    expect_1 = actual_all * expect_1_ratio
    
    chi2_0 = (expect_0 - actual_0)**2 / expect_0 #类别0 的卡方值
    chi2_1 = (expect_1 - actual_1)**2 / expect_1
    
    actual_0_cnt.append(actual_0) #样本为0的,该值的数量
    actual_1_cnt.append(actual_1)
    
    actual_all_cnt.append(actual_all) #改组的总样本数
    expect_0_cnt.append(expect_0) #类别0 的 期望频率
    expect_1_cnt.append(expect_1)
    
    chi2_value.append(chi2_0 + chi2_1) #改变量值的卡方值
    
  chi2_result = pd.DataFrame({'actual_0':actual_0_cnt, 'actual_1':actual_1_cnt, 'expect_0':expect_0_cnt, \
                'expect_1':expect_1_cnt, 'chi2_value':chi2_value, var_name+'_start':var_values, \
                var_name+'_end':var_values}, \
                columns=[var_name+'_start', var_name+'_end', 'actual_0', 'actual_1', 'expect_0', 'expect_1', 'chi2_value'])
  
  return chi2_result, var_name 
 
#定义合并区间的方法
def merge_area(chi2_result, var_name, idx, merge_idx):
  #按照idx和merge_idx执行合并
  chi2_result.ix[idx, 'actual_0'] = chi2_result.ix[idx, 'actual_0'] + chi2_result.ix[merge_idx, 'actual_0']
  chi2_result.ix[idx, 'actual_1'] = chi2_result.ix[idx, 'actual_1'] + chi2_result.ix[merge_idx, 'actual_1']
  chi2_result.ix[idx, 'expect_0'] = chi2_result.ix[idx, 'expect_0'] + chi2_result.ix[merge_idx, 'expect_0']  
  chi2_result.ix[idx, 'expect_1'] = chi2_result.ix[idx, 'expect_1'] + chi2_result.ix[merge_idx, 'expect_1']  
  chi2_0 = (chi2_result.ix[idx, 'expect_0'] - chi2_result.ix[idx, 'actual_0'])**2 / chi2_result.ix[idx, 'expect_0']
  chi2_1 = (chi2_result.ix[idx, 'expect_1'] - chi2_result.ix[idx, 'actual_1'])**2 / chi2_result.ix[idx, 'expect_1']
 
  chi2_result.ix[idx, 'chi2_value'] = chi2_0 + chi2_1   #计算卡方值
  
  #调整每个区间的起始值
  if idx < merge_idx:
    chi2_result.ix[idx, var_name+'_end'] = chi2_result.ix[merge_idx, var_name+'_end'] #向后扩大范围
  else:
    chi2_result.ix[idx, var_name+'_start'] = chi2_result.ix[merge_idx, var_name+'_start'] ##,向前扩大范围
    
  chi2_result = chi2_result.drop([merge_idx]) #删掉行
  chi2_result = chi2_result.reset_index(drop=True)
  
  return chi2_result
 
#自动进行分箱,使用最大区间限制
def chiMerge_maxInterval(chi2_result, var_name, max_interval=5): #最大分箱数 为 5 
  groups = chi2_result.shape[0] #各组的卡方值,数量
  while groups > max_interval:
    min_idx = chi2_result[chi2_result['chi2_value']==chi2_result['chi2_value'].min()].index.tolist()[0] #寻找最小的卡方值
    if min_idx == 0:
      chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx+1) #合并1和2组
    elif min_idx == groups-1:  
      chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx-1)
      
    else: #寻找左右两边更小的卡方组
      if chi2_result.loc[min_idx-1, 'chi2_value'] > chi2_result.loc[min_idx+1, 'chi2_value']:
        chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx+1)
      else:
        chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx-1)
    groups = chi2_result.shape[0]
 
  return chi2_result
 
 
def chiMerge_minChiSquare(chi2_result, var_name): #(chi_result, maxInterval=5):
  '''
  卡方分箱合并--卡方阈值法,,同时限制,最大组为6组,,可以去掉
  '''
  threshold = get_chiSquare_distribution(4, 0.1)
  min_chiSquare = chi2_result['chi2_value'].min()
  #min_chiSquare = chi_result['chi_square'].min()
  group_cnt = len(chi2_result)
  # 如果变量区间的最小卡方值小于阈值,则继续合并直到最小值大于等于阈值
  while(min_chiSquare < threshold and group_cnt > 6):
    min_idx = chi2_result[chi2_result['chi2_value']==chi2_result['chi2_value'].min()].index.tolist()[0] #寻找最小的卡方值
    #min_index = chi_result[chi_result['chi_square']==chi_result['chi_square'].min()].index.tolist()[0]
    # 如果分箱区间在最前,则向下合并
    if min_idx == 0:
      chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx+1) #合并1和2组
    elif min_idx == group_cnt -1:  
      chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx-1)
      
    else: #寻找左右两边更小的卡方组
      if chi2_result.loc[min_idx-1, 'chi2_value'] > chi2_result.loc[min_idx+1, 'chi2_value']:
        chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx+1)
      else:
        chi2_result = merge_area(chi2_result, var_name, min_idx, min_idx-1)
        
    min_chiSquare = chi2_result['chi2_value'].min()
    group_cnt = len(chi2_result)
 
  return chi2_result
 
#分箱主体部分包括两种分箱方法的主体函数,其中merge_chiSquare()是对区间进行合并,
#get_chiSquare_distribution()是根据自由度和置信度得到卡方阈值。我在这里设置的是自由度为4
#,置信度为10%。两个自定义函数如下
 
def get_chiSquare_distribution(dfree=4, cf=0.1):
  '''
  根据自由度和置信度得到卡方分布和阈值
  dfree:自由度k= (行数-1)*(列数-1),默认为4   #问题,自由度k,如何来确定?
  cf:显著性水平,默认10%
  '''
  percents = [ 0.95, 0.90, 0.5,0.1, 0.05, 0.025, 0.01, 0.005]
  df = pd.DataFrame(np.array([chi2.isf(percents, df=i) for i in range(1, 30)]))
  df.columns = percents
  df.index = df.index+1
  # 显示小数点后面数字
  pd.set_option('precision', 3)
  return df.loc[dfree, cf]

以上这篇python实现二分类的卡方分箱示例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python爬虫抓取代理IP并检验可用性的实例
May 07 Python
python虚拟环境迁移方法
Jan 03 Python
Python正则表达式实现简易计算器功能示例
May 07 Python
pandas中的series数据类型详解
Jul 06 Python
Python二维码生成识别实例详解
Jul 16 Python
详解从Django Allauth中进行登录改造小结
Dec 18 Python
TENSORFLOW变量作用域(VARIABLE SCOPE)
Jan 10 Python
python自定义函数def的应用详解
Jun 03 Python
python 爬虫如何正确的使用cookie
Oct 27 Python
Python破解极验滑动验证码详细步骤
May 21 Python
解决IDEA翻译插件Translation报错更新TTK失败不能使用
Apr 24 Python
讲解Python实例练习逆序输出字符串
May 06 Python
python的等深分箱实例
Nov 22 #Python
基于python实现学生信息管理系统
Nov 22 #Python
基于python cut和qcut的用法及区别详解
Nov 22 #Python
python创建学生成绩管理系统
Nov 22 #Python
Python计算不规则图形面积算法实现解析
Nov 22 #Python
python实现连续变量最优分箱详解--CART算法
Nov 22 #Python
pycharm运行scrapy过程图解
Nov 22 #Python
You might like
yii实现创建验证码实例解析
2014/07/31 PHP
PHP使用Memcache时模拟命名空间及缓存失效问题的解决
2016/02/27 PHP
PHP开发之归档格式phar文件概念与用法详解【创建,使用,解包还原提取】
2017/11/17 PHP
php利用array_search与array_column实现二维数组查找
2019/07/08 PHP
[HTML/CSS/Javascript]WWTJS
2007/09/25 Javascript
Json对象替换字符串占位符实现代码
2010/11/17 Javascript
基于jquery的图片轮播 tab切换组件
2012/07/19 Javascript
JavaScript 函数惰性载入的实现及其优点介绍
2013/08/12 Javascript
JS实现来回出现文字的状态栏特效代码
2015/10/31 Javascript
微信小程序 九宫格实例代码
2017/01/21 Javascript
详解JS中的柯里化(currying)
2017/08/17 Javascript
React精髓!一篇全概括小结(急速)
2019/05/23 Javascript
基于layui框架响应式布局的一些使用详解
2019/09/16 Javascript
uni-app 支持多端第三方地图定位的方法
2020/01/03 Javascript
vue实现计算器功能
2020/02/22 Javascript
python实现多线程采集的2个代码例子
2014/07/07 Python
在Python的Flask框架下使用sqlalchemy库的简单教程
2015/04/09 Python
用Python给文本创立向量空间模型的教程
2015/04/23 Python
Python中用sleep()方法操作时间的教程
2015/05/22 Python
Python标准库sched模块使用指南
2017/07/06 Python
Python selenium实现微博自动登录的示例代码
2018/05/16 Python
flask框架实现连接sqlite3数据库的方法分析
2018/07/16 Python
Python中时间datetime的处理与转换用法总结
2019/02/18 Python
Python3中exp()函数用法分析
2019/02/19 Python
pyqt5 获取显示器的分辨率的方法
2019/06/18 Python
python图形用户接口实例详解
2019/12/16 Python
python属于解释型语言么
2020/06/15 Python
Django解决frame拒绝问题的方法
2020/12/18 Python
浅谈CSS3动画的回调处理
2016/07/21 HTML / CSS
详解CSS3+JS完美实现放大镜模式
2020/12/03 HTML / CSS
Contém1g官网:巴西彩妆品牌
2020/01/17 全球购物
办护照工作证明范本
2014/01/14 职场文书
电气自动化个人求职信范文
2014/02/03 职场文书
2014年三万活动总结
2014/04/26 职场文书
525心理活动总结
2014/07/04 职场文书
【海涛DOTA】D-cup邀请赛NV.cn vs DT.Love
2022/04/01 DOTA