Pandas数据离散化原理及实例解析


Posted in Python onNovember 16, 2019

这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

为什么要离散化

  • 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
  • 扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值

分箱

Pandas数据离散化原理及实例解析

案例

1.先读取股票的数据,筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具:

  • pd.qcut(data, bins)——等深分箱:
    • 对数据进行分组将数据分组 一般会与value_counts搭配使用,统计每组的个数
  • series.value_counts():统计分组次数
# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组:

  • pd.cut(data, bins)——等宽分箱:
    • bins是整数—等宽
    • bins是列表--自定义分箱
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

Pandas数据离散化原理及实例解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python操作ie登陆土豆网的方法
May 09 Python
深入解析Python中函数的参数与作用域
Mar 20 Python
pandas数值计算与排序方法
Apr 12 Python
对pandas读取中文unicode的csv和添加行标题的方法详解
Dec 12 Python
Django uwsgi Nginx 的生产环境部署详解
Feb 02 Python
python 利用turtle库绘制笑脸和哭脸的例子
Nov 23 Python
pytorch中torch.max和Tensor.view函数用法详解
Jan 03 Python
python3 正则表达式基础廖雪峰
Mar 25 Python
Python decorator拦截器代码实例解析
Apr 04 Python
Django 解决上传文件时,request.FILES为空的问题
May 20 Python
Python 多进程、多线程效率对比
Nov 19 Python
matplotlib grid()设置网格线外观的实现
Feb 22 Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 #Python
Python大数据之从网页上爬取数据的方法详解
Nov 16 #Python
简单了解Pandas缺失值处理方法
Nov 16 #Python
You might like
file_get_contents("php://input", "r")实例介绍
2013/07/01 PHP
Zend Framework上传文件重命名的实现方法
2016/11/25 PHP
PHP字符串逆序排列实现方法小结【strrev函数,二分法,循环法,递归法】
2017/01/13 PHP
你需要知道的JavsScript可以做什么?
2007/06/29 Javascript
JQuery 绑定事件时传递参数的实现方法
2009/10/13 Javascript
jQuery代码优化 事件委托篇
2011/11/01 Javascript
使用jQuery validate 验证注册表单实例演示
2013/03/25 Javascript
js禁止页面刷新与后退的方法
2015/06/08 Javascript
基于JS判断iframe是否加载成功的方法(多种浏览器)
2016/05/13 Javascript
jQuery实现可拖拽3D万花筒旋转特效
2017/01/03 Javascript
基于jQuery实现选项卡效果
2017/01/04 Javascript
Vue2.x中的父子组件相互通信的实现方法
2017/05/02 Javascript
利用node.js实现反向代理的方法详解
2017/07/24 Javascript
在vue项目中使用Nprogress.js进度条的方法
2018/01/31 Javascript
微信小程序支付PHP代码
2018/08/23 Javascript
Vue高版本中一些新特性的使用详解
2018/09/25 Javascript
NodeJS读取分析Nginx错误日志的方法
2019/05/14 NodeJs
Element Alert警告的具体使用方法
2020/07/27 Javascript
[00:17]DOTA2荣耀之路5:It’s a disastah!
2018/05/28 DOTA
python在linux中输出带颜色的文字的方法
2014/06/19 Python
python基于itchat实现微信群消息同步机器人
2017/02/27 Python
Django 浅谈根据配置生成SQL语句的问题
2018/05/29 Python
浅谈dataframe中更改列属性的方法
2018/07/10 Python
Django restframework 源码分析之认证详解
2019/02/22 Python
详解python调用cmd命令三种方法
2019/07/08 Python
浅谈HTML5 FileReader分布读取文件以及其方法简介
2017/11/09 HTML / CSS
Linden Leaves官网:新西兰纯净护肤品
2020/12/20 全球购物
什么是动态端口(Dynamic Ports)?动态端口的范围是多少?
2014/12/12 面试题
校园达人秀策划书
2014/01/12 职场文书
喜之郎果冻广告词
2014/03/20 职场文书
奥巴马连任演讲稿
2014/05/15 职场文书
材料成型及控制工程专业求职信
2014/06/19 职场文书
毕业实习单位意见
2015/06/04 职场文书
实习感想范文
2015/08/10 职场文书
2016小学优秀教师先进事迹材料
2016/02/26 职场文书
浅谈Python协程asyncio
2021/06/20 Python