Pandas数据离散化原理及实例解析


Posted in Python onNovember 16, 2019

这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

为什么要离散化

  • 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
  • 扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值

分箱

Pandas数据离散化原理及实例解析

案例

1.先读取股票的数据,筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具:

  • pd.qcut(data, bins)——等深分箱:
    • 对数据进行分组将数据分组 一般会与value_counts搭配使用,统计每组的个数
  • series.value_counts():统计分组次数
# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组:

  • pd.cut(data, bins)——等宽分箱:
    • bins是整数—等宽
    • bins是列表--自定义分箱
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

Pandas数据离散化原理及实例解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用迭代器捕获Generator返回值的方法
Apr 05 Python
python中闭包Closure函数作为返回值的方法示例
Dec 17 Python
python中找出numpy array数组的最值及其索引方法
Apr 17 Python
Pandas DataFrame 取一行数据会得到Series的方法
Nov 10 Python
python中下标和切片的使用方法解析
Aug 27 Python
使用pygame写一个古诗词填空通关游戏
Dec 03 Python
python字符串替换re.sub()实例解析
Feb 09 Python
Django实现图片上传功能步骤解析
Apr 22 Python
Python实现仿射密码的思路详解
Apr 23 Python
Python 创建守护进程的示例
Sep 29 Python
Python实现我的世界小游戏源代码
Mar 02 Python
linux中nohup和后台运行进程查看及终止
Jun 24 Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 #Python
Python大数据之从网页上爬取数据的方法详解
Nov 16 #Python
简单了解Pandas缺失值处理方法
Nov 16 #Python
You might like
PHP脚本的10个技巧(5)
2006/10/09 PHP
在数据量大(超过10万)的情况下
2007/01/15 PHP
在PHP中读取和写入WORD文档的代码
2008/04/09 PHP
基于php验证码函数的使用示例
2013/05/03 PHP
PHP实现单例模式最安全的做法
2014/06/13 PHP
php cookie 详解使用实例
2016/11/03 PHP
jquery 绑定回车动作扑捉回车键触发的事件
2014/03/26 Javascript
JS长整型精度问题实例分析
2015/01/13 Javascript
Node.js中的process.nextTick使用实例
2015/06/25 Javascript
AngularJS实现Model缓存的方式
2016/02/03 Javascript
JS实现图片剪裁并预览效果
2016/08/12 Javascript
Vue.js每天必学之组件与组件间的通信
2016/09/08 Javascript
Node.js websocket使用socket.io库实现实时聊天室
2017/02/20 Javascript
详谈Node.js之操作文件系统
2017/08/29 Javascript
js对象实例详解(JavaScript对象深度剖析,深度理解js对象)
2017/09/21 Javascript
简述Angular 5 快速入门
2017/11/04 Javascript
vue cli升级webapck4总结
2018/04/04 Javascript
微信小程序实现上传图片功能
2018/05/28 Javascript
从Vuex中取出数组赋值给新的数组,新数组push时报错的解决方法
2018/09/18 Javascript
通过vue手动封装on、emit、off的代码详解
2019/05/29 Javascript
Vue组件间的通信pubsub-js实现步骤解析
2020/03/11 Javascript
浅谈实现在线预览PDF的几种解决办法
2020/08/10 Javascript
[11:01]2014DOTA2西雅图邀请赛 冷冷带你探秘威斯汀
2014/07/08 DOTA
解决Python设置函数调用超时,进程卡住的问题
2019/08/08 Python
HTML5视频播放插件 video.js介绍
2018/09/29 HTML / CSS
KEETSA环保床垫:更好的睡眠,更好的生活!
2016/11/24 全球购物
第一范式(1NF)、第二范式(2NF)和第三范式(3NF)之间的区别是什么?
2016/04/28 面试题
机电专业大学生求职信
2013/10/04 职场文书
北大研究生linux应用求职信
2013/10/29 职场文书
2014各大专业毕业生自我评价
2014/09/17 职场文书
副总经理岗位职责范本
2014/09/30 职场文书
机关职员工作检讨书
2014/10/23 职场文书
2016师德师风学习心得体会
2016/01/12 职场文书
tensorflow学习笔记之tfrecord文件的生成与读取
2021/03/31 Python
解决pytorch-gpu 安装失败的记录
2021/05/24 Python
各国货币符号大全
2022/02/17 杂记