Pandas数据离散化原理及实例解析


Posted in Python onNovember 16, 2019

这篇文章主要介绍了Pandas数据离散化原理及实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

为什么要离散化

  • 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
  • 扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值

分箱

Pandas数据离散化原理及实例解析

案例

1.先读取股票的数据,筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具:

  • pd.qcut(data, bins)——等深分箱:
    • 对数据进行分组将数据分组 一般会与value_counts搭配使用,统计每组的个数
  • series.value_counts():统计分组次数
# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组:

  • pd.cut(data, bins)——等宽分箱:
    • bins是整数—等宽
    • bins是列表--自定义分箱
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

Pandas数据离散化原理及实例解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中类的继承代码实例
Oct 28 Python
Python中的rfind()方法使用详解
May 19 Python
详解python发送各类邮件的主要方法
Dec 22 Python
Python设计模式之工厂方法模式实例详解
Jan 18 Python
python Tkinter的图片刷新实例
Jun 14 Python
python Matplotlib底图中鼠标滑过显示隐藏内容的实例代码
Jul 31 Python
django 实现celery动态设置周期任务执行时间
Nov 19 Python
Python利用Xpath选择器爬取京东网商品信息
Jun 01 Python
Python自动发送和收取邮件的方法
Aug 12 Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 Python
DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
Jun 22 Python
python字符串拼接.join()和拆分.split()详解
Nov 23 Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 #Python
Python大数据之从网页上爬取数据的方法详解
Nov 16 #Python
简单了解Pandas缺失值处理方法
Nov 16 #Python
You might like
如何给phpadmin一个保护
2006/10/09 PHP
php引用返回与取消引用的详解
2013/06/08 PHP
一个简单且很好用的php分页类
2013/10/26 PHP
PHP读取Excel类文件
2017/05/15 PHP
jquery ajax 登录验证实现代码
2009/09/23 Javascript
SharePoint 客户端对象模型 (一) ECMA Script
2011/05/22 Javascript
jQuery 鼠标经过(hover)事件的延时处理示例
2014/04/14 Javascript
js实现window.open不被拦截的解决方法汇总
2014/10/30 Javascript
jquery选择器需要注意的问题
2014/11/26 Javascript
推荐一个自己用的封装好的javascript插件
2015/01/29 Javascript
jQuery模拟下拉框选择对应菜单的内容
2017/03/07 Javascript
详解webpack提取第三方库的正确姿势
2017/12/22 Javascript
React styled-components设置组件属性的方法
2018/08/07 Javascript
Javascript的this详解
2019/03/23 Javascript
python计算程序开始到程序结束的运行时间和程序运行的CPU时间
2013/11/28 Python
linux系统使用python获取cpu信息脚本分享
2014/01/15 Python
python实现文件名批量替换和内容替换
2014/03/20 Python
Python实现合并同一个文件夹下所有txt文件的方法示例
2018/04/26 Python
python多线程与多进程及其区别详解
2019/08/08 Python
python绘制规则网络图形实例
2019/12/09 Python
Python进程的通信Queue、Pipe实例分析
2020/03/30 Python
使用SQLAlchemy操作数据库表过程解析
2020/06/10 Python
销售人员中英文自荐信
2013/09/22 职场文书
后进生转化工作制度
2014/01/17 职场文书
见习期自我鉴定
2014/01/31 职场文书
劳动实践课感言
2014/02/01 职场文书
作弊检讨书1000字
2014/02/01 职场文书
会计专业个人自我鉴定
2014/03/21 职场文书
领导干部遵守党的政治纪律情况思想汇报
2014/09/14 职场文书
酒店客房服务员岗位职责
2015/04/09 职场文书
搭讪开场白台词大全
2015/05/28 职场文书
建国大业电影观后感
2015/06/01 职场文书
只需要这一行代码就能让python计算速度提高十倍
2021/05/24 Python
Flask使用SQLAlchemy实现持久化数据
2021/07/16 Python
阿里云服务器部署mongodb的详细过程
2021/09/04 MongoDB
《我的美好婚事》动画化决定纪念插画与先导PV公开
2022/04/06 日漫