python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中类型关系和继承关系实例详解
May 25 Python
Python实现Youku视频批量下载功能
Mar 14 Python
Python中关于Sequence切片的下标问题详解
Jun 15 Python
Django使用 Bootstrap 样式修改书籍列表过程解析
Aug 09 Python
Python操作多维数组输出和矩阵运算示例
Nov 28 Python
python GUI库图形界面开发之PyQt5菜单栏控件QMenuBar的详细使用方法与实例
Feb 28 Python
Python动态导入模块:__import__、importlib、动态导入的使用场景实例分析
Mar 30 Python
python实现对变位词的判断方法
Apr 05 Python
python sitk.show()与imageJ结合使用常见的问题
Apr 20 Python
使用Keras中的ImageDataGenerator进行批次读图方式
Jun 17 Python
基于Python+QT的gui程序开发实现
Jul 03 Python
python time()的实例用法
Nov 03 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
再说下636单管机
2021/03/02 无线电
php5 non-thread-safe和thread-safe这两个版本的区别分析
2010/03/13 PHP
php递归删除目录与文件的方法
2015/01/30 PHP
PHP将字符串首字母大小写转换的实例
2017/01/21 PHP
PHP 类与构造函数解析
2017/02/06 PHP
Yii 框架控制器创建使用及控制器响应操作示例
2019/10/14 PHP
网易JS面试题与Javascript词法作用域说明
2010/11/09 Javascript
定时器(setTimeout/setInterval)调用带参函数失效解决方法
2013/03/26 Javascript
jQuery中:checkbox选择器用法实例
2015/01/03 Javascript
好好了解一下Cookie(强烈推荐)
2016/06/14 Javascript
通过JS和PHP两种方法判断用户请求时使用的浏览器类型
2016/09/01 Javascript
15个非常实用的JavaScript代码片段
2016/12/18 Javascript
深入解析Vue 组件命名那些事
2017/07/18 Javascript
浅谈在Vue-cli里基于axios封装复用请求
2017/11/06 Javascript
webpack vue项目开发环境局域网访问方法
2018/03/20 Javascript
学习Vue组件实例
2018/04/28 Javascript
jQuery zTree插件使用简单教程
2019/08/16 jQuery
Vue的生命周期操作示例
2019/09/17 Javascript
解决vue elementUI 使用el-select 时 change事件的触发问题
2020/11/17 Vue.js
Python即时网络爬虫项目启动说明详解
2018/02/23 Python
浅谈Python中的作用域规则和闭包
2018/03/20 Python
基于MTCNN/TensorFlow实现人脸检测
2018/05/24 Python
CSS3 border-radius圆角的实现方法及用法详解
2020/09/14 HTML / CSS
html5 Canvas画图教程(10)—把面拆成线条模拟出圆角矩形
2013/01/09 HTML / CSS
HTML5 层的叠加的实现
2020/07/07 HTML / CSS
Nike荷兰官方网站:Nike.com (NL)
2018/04/19 全球购物
Mountain Warehouse德国官网:英国户外零售商
2019/08/11 全球购物
MIS软件工程师的面试题
2016/04/22 面试题
Laravel中Kafka的使用详解
2021/03/24 PHP
大学毕业感言50字
2014/02/07 职场文书
食品安全工作方案
2014/05/07 职场文书
授权委托书(法人单位用)
2014/09/29 职场文书
学生不讲诚信检讨书
2014/09/29 职场文书
工作能力自我评价2015
2015/03/05 职场文书
导游词之湖州-太湖
2019/10/11 职场文书
Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤
2021/03/29 Python