Python Pandas 如何shuffle(打乱)数据


Posted in Python onJuly 30, 2019

在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。

应用情景:

我们有下面以个DataFrame

Python Pandas 如何shuffle(打乱)数据

我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果:

Python Pandas 如何shuffle(打乱)数据

实现方法:

最简单的方法就是采用pandas中自带的 sample这个方法。

假设df是这个DataFrame

df.sample(frac=1)

这样对可以对df进行shuffle。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。

有时候,我们可能需要打混后数据集的index(索引)还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)

-------------------------------------分割线--------------------------------------------------------------

其实,sklearn(机器学习的库)中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

另外,numpy库中也有进行shuffle的方法(不建议)

df.iloc[np.random.permutation(len(df))]

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用select模块实现非阻塞的IO
Feb 03 Python
Python实现冒泡排序的简单应用示例
Dec 11 Python
Python 查找list中的某个元素的所有的下标方法
Jun 27 Python
tensorflow实现加载mnist数据集
Sep 08 Python
windows下cx_Freeze生成Python可执行程序的详细步骤
Oct 09 Python
python批量创建指定名称的文件夹
Mar 21 Python
详解10个可以快速用Python进行数据分析的小技巧
Jun 24 Python
PYQT5实现控制台显示功能的方法
Jun 25 Python
python 读取数据库并绘图的实例
Dec 03 Python
基于python监控程序是否关闭
Jan 14 Python
Python 找出出现次数超过数组长度一半的元素实例
May 11 Python
Python利用capstone实现反汇编
Apr 06 Python
python tkinter实现屏保程序
Jul 30 #Python
python pandas 时间日期的处理实现
Jul 30 #Python
Django 反向生成url实例详解
Jul 30 #Python
Python Pandas数据中对时间的操作
Jul 30 #Python
python tkinter实现彩球碰撞屏保
Jul 30 #Python
详解python pandas 分组统计的方法
Jul 30 #Python
python文档字符串(函数使用说明)使用详解
Jul 30 #Python
You might like
50个PHP程序性能优化的方法
2014/06/02 PHP
ASP.NET jQuery 实例6 (实现CheckBoxList成员全选或全取消)
2012/01/13 Javascript
js实现的彩色方块飞舞奇幻效果
2016/01/27 Javascript
浅谈JavaScript对象与继承
2016/07/10 Javascript
JS实现隐藏同级元素后只显示JS文件内容的方法
2016/09/04 Javascript
html判断当前页面是否在iframe中的实例
2016/11/30 Javascript
JavaScript使用享元模式实现文件上传优化操作示例
2018/08/07 Javascript
vue自定义树状结构图的实现方法
2020/10/18 Javascript
Taro小程序自定义顶部导航栏功能的实现
2020/12/17 Javascript
[02:41]辉夜杯现场一家三口 “我爸玩风行 我玩血魔”
2015/12/27 DOTA
[53:18]Spirit vs Liquid Supermajor小组赛A组 BO3 第三场 6.2
2018/06/03 DOTA
在Python中测试访问同一数据的竞争条件的方法
2015/04/23 Python
python使用pil生成图片验证码的方法
2015/05/08 Python
Python3简单实例计算同花的概率代码
2017/12/06 Python
Tensorflow 训练自己的数据集将数据直接导入到内存
2018/06/19 Python
Python爬虫框架scrapy实现downloader_middleware设置proxy代理功能示例
2018/08/04 Python
TensorFlow实现简单的CNN的方法
2019/07/18 Python
HTML的form表单和django的form表单
2019/07/25 Python
详解pycharm连接不上mysql数据库的解决办法
2020/01/10 Python
Tensorflow tf.nn.atrous_conv2d如何实现空洞卷积的
2020/04/20 Python
django 获取字段最大值,最新的记录操作
2020/08/09 Python
美国最大的网络男装服装品牌:Bonobos
2017/05/25 全球购物
美国顶级水上运动专业店:Marine Products
2018/04/15 全球购物
植村秀加拿大官网:Shu Uemura加拿大
2019/09/03 全球购物
UNOde50美国官网:西班牙珠宝品牌
2020/08/15 全球购物
写clone()方法时,通常都有一行代码,是什么?
2012/10/31 面试题
求职自荐信
2013/12/14 职场文书
授权委托书格式
2014/07/31 职场文书
2014领导班子正风肃纪思想汇报
2014/09/18 职场文书
学生抄袭作业的检讨书
2014/10/02 职场文书
《给予树》教学反思
2016/03/03 职场文书
如何做好员工培训计划?
2019/07/09 职场文书
班干部竞选演讲稿(精选5篇)
2019/09/24 职场文书
python中的3种定义类方法
2021/11/27 Python
python使用opencv对图像添加噪声(高斯/椒盐/泊松/斑点)
2022/04/06 Python
MySQL中TIMESTAMP类型返回日期时间数据中带有T的解决
2022/12/24 MySQL