python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 变量类型及命名规则介绍
Jun 08 Python
Python中使用Flask、MongoDB搭建简易图片服务器
Feb 04 Python
在Python中处理字符串之ljust()方法的使用简介
May 19 Python
Python实现处理管道的方法
Jun 04 Python
python 读取目录下csv文件并绘制曲线v111的方法
Jul 06 Python
python内置数据类型之列表操作
Nov 12 Python
python设定并获取socket超时时间的方法
Jan 12 Python
Pandas中Series和DataFrame的索引实现
Jun 27 Python
浅谈Python3 numpy.ptp()最大值与最小值的差
Aug 24 Python
python 中xpath爬虫实例详解
Aug 26 Python
python实现每天自动签到领积分的示例代码
Aug 18 Python
python spilt()分隔字符串的实现示例
May 21 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
最贵的咖啡是怎么产生的,它的风味怎么样?
2021/03/04 新手入门
对象失去焦点时自己动提交数据的实现代码
2012/11/06 PHP
ThinkPHP中处理表单中的注意事项
2014/11/22 PHP
CI框架(CodeIgniter)实现的数据库增删改查操作总结
2018/05/23 PHP
IE6-IE9中tbody的innerHTML不能赋值的解决方法
2014/06/05 Javascript
jquery、js调用iframe父窗口与子窗口元素的方法整理
2014/07/31 Javascript
JavaScript三元运算符的多种使用技巧
2015/04/16 Javascript
星期几的不同脚本写法(推荐)
2016/06/01 Javascript
简单理解vue中track-by属性
2016/10/26 Javascript
js实现滑动到页面底部自动加载更多功能
2017/02/15 Javascript
JavaScript中的this陷阱的最全收集并整理(没有之一)
2017/02/21 Javascript
使用Node.js实现RESTful API的示例
2017/08/01 Javascript
js实现数组和对象的深浅拷贝
2017/09/30 Javascript
javascript设计模式 ? 观察者模式原理与用法实例分析
2020/04/22 Javascript
js实现翻牌小游戏
2020/07/31 Javascript
vue动态合并单元格并添加小计合计功能示例
2020/11/26 Vue.js
[01:01:24]LGD vs Fnatic 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
使用python解析xml成对应的html示例分享
2014/04/02 Python
Python类方法__init__和__del__构造、析构过程分析
2015/03/06 Python
python 网络编程常用代码段
2016/08/28 Python
python制作企业邮箱的爆破脚本
2016/10/05 Python
Python序列操作之进阶篇
2016/12/08 Python
python实现批量修改文件名代码
2017/09/10 Python
python递归函数绘制分形树的方法
2018/06/22 Python
Python Dataframe 指定多列去重、求差集的方法
2018/07/10 Python
TFRecord格式存储数据与队列读取实例
2020/01/21 Python
Python按照list dict key进行排序过程解析
2020/04/04 Python
windows下的pycharm安装及其设置中文菜单
2020/04/23 Python
python如何实现DES加密
2020/09/21 Python
解决pytorch 模型复制的一些问题
2021/03/03 Python
css3实现一个div设置多张背景图片及background-image属性实例演示
2017/08/10 HTML / CSS
CSS3条纹背景制作的实战攻略
2016/05/31 HTML / CSS
HTML5注册页面示例代码
2014/03/27 HTML / CSS
竞聘上岗演讲稿范文
2014/01/10 职场文书
毕业典礼演讲稿
2014/05/13 职场文书
python 通过使用Yolact训练数据集
2021/04/06 Python