Pandas数据离散化原理及实例解析


Posted in Python onNovember 16, 2019

这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

为什么要离散化

  • 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
  • 扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值

分箱

Pandas数据离散化原理及实例解析

案例

1.先读取股票的数据,筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具:

  • pd.qcut(data, bins)——等深分箱:
    • 对数据进行分组将数据分组 一般会与value_counts搭配使用,统计每组的个数
  • series.value_counts():统计分组次数
# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组:

  • pd.cut(data, bins)——等宽分箱:
    • bins是整数—等宽
    • bins是列表--自定义分箱
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

Pandas数据离散化原理及实例解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之有点简约的元组
Sep 24 Python
python爬虫入门教程--优雅的HTTP库requests(二)
May 25 Python
Python自定义线程池实现方法分析
Feb 07 Python
Python中一般处理中文的几种方法
Mar 06 Python
python实现爬虫抓取小说功能示例【抓取金庸小说】
Aug 09 Python
python多线程同步实例教程
Aug 11 Python
Python中six模块基础用法
Dec 08 Python
python实现指定ip端口扫描方式
Dec 17 Python
Numpy 理解ndarray对象的示例代码
Apr 03 Python
Python 多线程C段扫描、检测 Ping扫描脚本的实现
Sep 03 Python
Django启动时找不到mysqlclient问题解决方案
Nov 11 Python
python爬取2021猫眼票房字体加密实例
Feb 19 Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 #Python
Python大数据之从网页上爬取数据的方法详解
Nov 16 #Python
简单了解Pandas缺失值处理方法
Nov 16 #Python
You might like
配置PHP使之能同时支持GIF和JPEG
2006/10/09 PHP
PHP配置心得包含MYSQL5乱码解决
2006/11/20 PHP
PHP命名空间和自动加载类
2016/04/03 PHP
浅谈thinkphp5 instance 的简单实现
2017/07/30 PHP
PHP Beanstalkd消息队列的安装与使用方法实例详解
2020/02/21 PHP
基于jquery的代码显示区域自动拉长效果
2011/12/07 Javascript
jsonp原理及使用
2013/10/28 Javascript
jquery分割字符串的方法
2015/06/24 Javascript
使用bat打开多个cmd窗口执行gulp、node
2017/02/17 Javascript
微信小程序 地图map实例详解
2017/06/07 Javascript
ES6中数组array新增方法实例总结
2017/11/07 Javascript
微信小程序使用wxParse解析html的方法教程
2018/07/06 Javascript
使用p5.js实现动态GIF图片临摹重现
2019/10/23 Javascript
vue 指令和过滤器的基本使用(品牌管理案例)
2019/11/04 Javascript
element-plus一个vue3.xUI框架(element-ui的3.x 版初体验)
2020/12/02 Vue.js
python进阶教程之循环相关函数range、enumerate、zip
2014/08/30 Python
python对字典进行排序实例
2014/09/25 Python
谈谈Python进行验证码识别的一些想法
2016/01/25 Python
Python进阶之递归函数的用法及其示例
2018/01/31 Python
python实现决策树分类(2)
2018/08/30 Python
解决python测试opencv时imread导致的错误问题
2019/01/26 Python
Tensorflow tf.nn.atrous_conv2d如何实现空洞卷积的
2020/04/20 Python
使用npy转image图像并保存的实例
2020/07/01 Python
使用Python-OpenCV消除图像中孤立的小区域操作
2020/07/05 Python
scrapy与selenium结合爬取数据(爬取动态网站)的示例代码
2020/09/28 Python
德国受欢迎的旅游和休闲网站:lastminute.de
2019/09/23 全球购物
毕业生个人求职信范例分享
2013/12/17 职场文书
玲玲的画教学反思
2014/02/04 职场文书
《歌唱二小放牛郎》教学反思
2014/04/19 职场文书
大学中国梦演讲稿
2014/04/23 职场文书
2014年城管个人工作总结
2014/12/08 职场文书
行政经理岗位职责
2015/04/15 职场文书
2015年反洗钱工作总结
2015/04/25 职场文书
pytorch MSELoss计算平均的实现方法
2021/05/12 Python
深入浅出的讲解:信号调制到底是如何实现的
2022/02/18 无线电
SpringBoot2零基础到精通之数据与页面响应
2022/03/22 Java/Android