Pandas数据离散化原理及实例解析


Posted in Python onNovember 16, 2019

这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

为什么要离散化

  • 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
  • 扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值

分箱

Pandas数据离散化原理及实例解析

案例

1.先读取股票的数据,筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具:

  • pd.qcut(data, bins)——等深分箱:
    • 对数据进行分组将数据分组 一般会与value_counts搭配使用,统计每组的个数
  • series.value_counts():统计分组次数
# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组:

  • pd.cut(data, bins)——等宽分箱:
    • bins是整数—等宽
    • bins是列表--自定义分箱
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

Pandas数据离散化原理及实例解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
教你如何将 Sublime 3 打造成 Python/Django IDE开发利器
Jul 04 Python
Python 12306抢火车票脚本
Feb 07 Python
python 将数据保存为excel的xls格式(实例讲解)
May 03 Python
python创造虚拟环境方法总结
Mar 04 Python
python SQLAlchemy 中的Engine详解
Jul 04 Python
python爬取本站电子书信息并入库的实现代码
Jan 20 Python
Python print不能立即打印的解决方式
Feb 19 Python
OpenCV 表盘指针自动读数的示例代码
Apr 10 Python
Pytorch高阶OP操作where,gather原理
Apr 30 Python
python 邮件检测工具mmpi的使用
Jan 04 Python
python 自动刷新网页的两种方法
Apr 20 Python
Python利用folium实现地图可视化
May 23 Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 #Python
Python大数据之从网页上爬取数据的方法详解
Nov 16 #Python
简单了解Pandas缺失值处理方法
Nov 16 #Python
You might like
PHP静态调用非静态方法的应用分析
2013/05/02 PHP
PHP删除字符串中非字母数字字符方法总结
2019/01/20 PHP
PHP封装的分页类与简单用法示例
2019/02/25 PHP
PHP从零开始打造自己的MVC框架之入口文件实现方法详解
2019/06/03 PHP
基于jQuery的的一个隔行变色,鼠标移动变色的小插件
2010/07/06 Javascript
node.js中的path.join方法使用说明
2014/12/08 Javascript
javascript 对象数组根据对象object key的值排序
2015/03/09 Javascript
javaScript中with函数用法实例分析
2015/06/08 Javascript
Bootstrap组件系列之福利篇几款好用的组件(推荐二)
2016/07/12 Javascript
最新Javascript程序员面试试题和解题方法
2017/11/23 Javascript
Vue2.X 通过AJAX动态更新数据
2018/07/17 Javascript
vue的token刷新处理的方法
2018/07/17 Javascript
Vue与React的区别和优势对比
2020/12/18 Vue.js
详解ES6实现类的私有变量的几种写法
2021/02/10 Javascript
[51:06]2018DOTA2亚洲邀请赛3月29日 小组赛A组 KG VS Liquid
2018/03/30 DOTA
python里大整数相乘相关技巧指南
2014/09/12 Python
kNN算法python实现和简单数字识别的方法
2014/11/18 Python
对pandas进行数据预处理的实例讲解
2018/04/20 Python
django开发post接口简单案例,获取参数值的方法
2018/12/11 Python
Python实现EXCEL表格的排序功能示例
2019/06/25 Python
python主线程与子线程的结束顺序实例解析
2019/12/17 Python
无需压缩软件,用python帮你操作压缩包
2020/08/17 Python
CSS3教程(4):网页边框和网页文字阴影
2009/04/02 HTML / CSS
伦敦高级内衣品牌:Agent Provocateur(大内密探)
2016/08/23 全球购物
德国PC硬件网站:CASEKING
2016/10/20 全球购物
Falconeri美国官网:由羊绒和羊毛制成的针织服装
2018/04/08 全球购物
Genny意大利官网:意大利高级时装品牌
2020/04/15 全球购物
英语专业毕业生求职简历的自我评价
2013/10/24 职场文书
历史教育专业个人求职信
2013/12/13 职场文书
大学生学年自我鉴定
2014/02/10 职场文书
《蓝色的树叶》教学反思
2014/02/24 职场文书
交通事故委托书范本精选
2014/10/04 职场文书
2014年乡镇党建工作总结
2014/11/11 职场文书
4S店收银员岗位职责
2015/04/07 职场文书
2016大学军训通讯稿
2015/11/25 职场文书
TS 类型收窄教程示例详解
2022/09/23 Javascript