基于python 等频分箱qcut问题的解决


Posted in Python onMarch 03, 2020

在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;

在比较旧版本的python中,提供一下解决办法:

import pandas as pd
 
def pct_rank_qcut(series, n):
  '''
  series:要分箱的列
  n:箱子数
  '''
  edages = pd.series([i/n for i in range(n)] # 转换成百分比
  func = lambda x: (edages >= x).argmax() #函数:(edages >= x)返回fasle/true列表中第一次出现true的索引值
  return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype

补充拓展:Python数据离散化:等宽及等频

在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考

1. 等宽离散化

使用pandas中的cut()函数进行划分

import numpy as np
import pandas as pd
 
# Discretization: Equal Width #
# Datas: Sample * Feature
def Discretization_EqualWidth(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  for i in range(FeatureNumber):
    DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1))
    DisDatas[:, i] = DisOneFeature
  return DisDatas

2. 等频离散化

pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop',则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()

import numpy as np
import pandas as pd
 
# Discretization: Equal Frequency #
# vector: single feature
def Rank_qcut(vector, K):
  quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values
  funBounder = lambda x: (quantile >= x).argmax()
  return vector.rank(pct=True).apply(funBounder)
 
# Discretization: Equal Frequency #
# Datas: Sample * Feature
def Discretization_EqualFrequency(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  w = [float(i) / K for i in range(K + 1)]
  for i in range(FeatureNumber):
    DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K)
    #print(DisOneFeature)
    DisDatas[:, i] = DisOneFeature
  return DisDatas

以上这篇基于python 等频分箱qcut问题的解决就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分享15个最受欢迎的Python开源框架
Jul 13 Python
python登陆asp网站页面的实现代码
Jan 14 Python
Python中操作MySQL入门实例
Feb 08 Python
python3简单实现微信爬虫
Apr 09 Python
解读Python中degrees()方法的使用
May 18 Python
python+pyqt实现12306图片验证效果
Oct 25 Python
python八大排序算法速度实例对比
Dec 06 Python
django rest framework 数据的查找、过滤、排序的示例
Jun 25 Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 Python
对Django中static(静态)文件详解以及{% static %}标签的使用方法
Jul 28 Python
python线程安全及多进程多线程实现方法详解
Sep 27 Python
Python+Selenium随机生成手机验证码并检查页面上是否弹出重复手机号码提示框
Sep 21 Python
python实现快递价格查询系统
Mar 03 #Python
使用python 计算百分位数实现数据分箱代码
Mar 03 #Python
利用Python计算KS的实例详解
Mar 03 #Python
python如何提取英语pdf内容并翻译
Mar 03 #Python
Pycharm如何运行.py文件的方法步骤
Mar 03 #Python
python生成大写32位uuid代码
Mar 03 #Python
python str字符串转uuid实例
Mar 03 #Python
You might like
php实现的MySQL通用查询程序
2007/03/11 PHP
php文件打包 下载之使用PHP自带的ZipArchive压缩文件并下载打包好的文件
2012/06/13 PHP
腾讯QQ微博API接口获取微博内容
2013/10/30 PHP
php实现信用卡校验位算法THE LUHN MOD-10示例
2014/05/07 PHP
PHP使用in_array函数检查数组中是否存在某个值
2015/03/25 PHP
php实现curl模拟ftp上传的方法
2015/07/29 PHP
Smarty日期时间操作方法示例
2016/11/15 PHP
跟着Jquery API学Jquery之一 选择器
2010/04/07 Javascript
javascript面向对象编程(一) 实例代码
2010/06/25 Javascript
js弹出确认是否删除对话框
2014/03/27 Javascript
JavaScript中Object.prototype.toString方法的原理
2016/02/24 Javascript
JQuery解析XML的方法小结
2016/04/02 Javascript
Js删除数组中某一项或几项的几种方法(推荐)
2016/07/27 Javascript
jQuery实现ajax的叠加和停止(终止ajax请求)
2016/08/08 Javascript
AngularJs directive详解及示例代码
2016/09/01 Javascript
jquery根据td给相同tr下其他td赋值的实现方法
2016/10/05 Javascript
微信小程序 火车票查询实例讲解
2016/10/17 Javascript
Easyui笔记2:实现datagrid多行删除的示例代码
2017/01/14 Javascript
vue.js语法及常用指令
2017/10/29 Javascript
js 获取json数组里面数组的长度实例
2017/10/31 Javascript
JS获取input[file]的值并显示在页面的实现方法
2018/03/09 Javascript
vue-swiper的使用教程
2018/08/30 Javascript
vue-cli脚手架打包静态资源请求出错的原因与解决
2019/06/06 Javascript
jQuery实现电梯导航模块
2020/12/22 jQuery
[36:41]完美世界DOTA2联赛循环赛FTD vs Magma第一场 10月30日
2020/10/31 DOTA
django rest framework vue 实现用户登录详解
2019/07/29 Python
关于Tensorflow 模型持久化详解
2020/02/12 Python
浅谈django 模型类使用save()方法的好处与注意事项
2020/03/28 Python
俄罗斯苹果优质经销商商店:iPort
2020/05/27 全球购物
String是最基本的数据类型吗?
2013/06/13 面试题
网络书店创业计划书
2014/02/07 职场文书
暑期研修感言
2014/02/17 职场文书
后勤部经理岗位职责
2014/02/23 职场文书
销售团队口号大全
2014/06/06 职场文书
初二数学教学反思
2016/02/17 职场文书
女性励志书籍推荐
2019/08/19 职场文书