python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python实现斐波那契(Fibonacci)函数
Mar 25 Python
基于python神经卷积网络的人脸识别
May 24 Python
python+selenium 定位到元素,无法点击的解决方法
Jan 30 Python
浅析Python3中的对象垃圾收集机制
Jun 06 Python
python笔记之mean()函数实现求取均值的功能代码
Jul 05 Python
python使用paramiko模块通过ssh2协议对交换机进行配置的方法
Jul 25 Python
pytorch 在网络中添加可训练参数,修改预训练权重文件的方法
Aug 17 Python
使用python3批量下载rbsp数据的示例代码
Dec 20 Python
django-csrf使用和禁用方式
Mar 13 Python
Python中remove漏删和索引越界问题的解决
Mar 18 Python
Python unittest单元测试框架及断言方法
Apr 15 Python
Pytorch转onnx、torchscript方式
May 25 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php垃圾代码优化操作代码
2010/08/05 PHP
dedecms函数分享之获取某一栏目所有子栏目
2014/05/19 PHP
Zend Framework实现多服务器共享SESSION数据的方法
2016/03/22 PHP
php设计模式之工厂模式用法经典实例分析
2019/09/20 PHP
javascript call方法使用说明
2010/01/11 Javascript
javascript 正则表达式相关应介绍
2012/11/27 Javascript
用js写了一个类似php的print_r输出换行功能
2013/02/18 Javascript
JavaScript实现Flash炫光波动特效
2015/05/14 Javascript
jQuery中事件与动画的总结分享
2016/05/24 Javascript
WEB开发之注册页面验证码倒计时代码的实现
2016/12/15 Javascript
jquery pagination分页插件使用详解(后台struts2)
2017/01/22 Javascript
AngularJS select设置默认值的实现方法
2017/08/25 Javascript
Vue Router的懒加载路径的解决方法
2018/06/21 Javascript
使用Vue实现图片上传的三种方式
2018/07/17 Javascript
基于Vue 2.0 监听文本框内容变化及ref的使用说明介绍
2018/08/24 Javascript
JS实现的碰撞检测与周期移动完整示例
2019/09/02 Javascript
基于Echarts图表在div动态切换时不显示的解决方式
2020/07/20 Javascript
[49:31]DOTA2-DPC中国联赛 正赛 Elephant vs LBZS BO3 第二场 1月29日
2021/03/11 DOTA
让python的Cookie.py模块支持冒号做key的方法
2010/12/28 Python
Python struct模块解析
2014/06/12 Python
Python实现控制台中的进度条功能代码
2017/12/22 Python
Python Serial串口基本操作(收发数据)
2020/11/06 Python
HTML5单页面手势滑屏切换原理
2016/03/21 HTML / CSS
BASIC HOUSE官方旗舰店:韩国著名的服装品牌
2018/09/27 全球购物
Linux管理员面试经常问道的相关命令
2013/04/29 面试题
初中生期末评语大全
2014/04/24 职场文书
医学专业毕业生推荐信
2014/07/12 职场文书
部门2014年度工作总结
2014/11/12 职场文书
2014年行政部工作总结
2014/11/19 职场文书
会议开幕词
2015/01/28 职场文书
公司财务管理制度
2015/08/04 职场文书
您对思维方式了解多少?
2019/12/09 职场文书
OpenCV-Python实现怀旧滤镜与连环画滤镜
2021/06/09 Python
Redis主从配置和底层实现原理解析(实战记录)
2021/06/30 Redis
解决ObjectMapper.convertValue() 遇到的一些问题
2021/06/30 Java/Android
2021年国漫热度排行前十,完美世界上榜,第四是美国动画作品
2022/03/18 国漫