python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现根据IP地址和子网掩码算出网段的方法
Jul 30 Python
Python文本相似性计算之编辑距离详解
Nov 28 Python
pygame实现弹力球及其变速效果
Jul 03 Python
Python中常用信号signal类型实例
Jan 25 Python
解决python3捕获cx_oracle抛出的异常错误问题
Oct 18 Python
Django 表单模型选择框如何使用分组
May 16 Python
python3 图片 4通道转成3通道 1通道转成3通道 图片压缩实例
Dec 03 Python
django实现后台显示媒体文件
Apr 07 Python
使用Python将Exception异常错误堆栈信息写入日志文件
Apr 08 Python
python使用for...else跳出双层嵌套循环的方法实例
May 17 Python
python实现过滤敏感词
May 08 Python
用python开发一款操作MySQL的小工具
May 12 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
PHP执行SQL文件并将SQL文件导入到数据库
2015/09/17 PHP
Zend Framework动作助手Url用法详解
2016/03/05 PHP
ThinkPHP连接Oracle数据库
2016/04/22 PHP
Laravel 中使用简单的方法跟踪用户是否在线(推荐)
2019/10/30 PHP
列表内容的选择
2006/06/30 Javascript
js异或加解密效果代码
2008/06/25 Javascript
JQuery实现动态表格点击按钮表格增加一行
2014/08/24 Javascript
原生Javascript封装的一个AJAX函数分享
2014/10/11 Javascript
简介可以自动完成UI的AngularJS工具angular-smarty
2015/06/23 Javascript
jQuery ui autocomplete选择列表被Bootstrap模态窗遮挡的完美解决方法
2016/09/23 Javascript
JavaScript面向对象精要(下部)
2017/09/12 Javascript
js 索引下标之li集合绑定点击事件
2018/01/12 Javascript
JavaScript实现预览本地上传图片功能完整示例
2019/03/08 Javascript
JS 设计模式之:工厂模式定义与实现方法浅析
2020/05/06 Javascript
JS算法教程之字符串去重与字符串反转
2020/12/15 Javascript
[01:05:07]DOTA2-DPC中国联赛 正赛 DLG vs Dragon BO3 第一场2月1日
2021/03/11 DOTA
深入讲解Python中面向对象编程的相关知识
2015/05/25 Python
python实现支付宝当面付(扫码支付)功能
2018/05/30 Python
对Python3中bytes和HexStr之间的转换详解
2018/12/04 Python
django中使用Celery 布式任务队列过程详解
2019/07/29 Python
解决python便携版无法直接运行py文件的问题
2020/09/01 Python
纯CSS3发光分享按钮的实现教程
2014/09/06 HTML / CSS
英国当代时尚和街头服饰店:18montrose
2018/12/15 全球购物
Noon埃及:埃及在线购物
2019/11/26 全球购物
酒店办公室文员岗位职责
2013/12/18 职场文书
给同学的道歉信
2014/01/16 职场文书
幼儿园小班教学反思
2014/02/02 职场文书
委托书范本
2014/04/02 职场文书
协议书的格式
2014/04/23 职场文书
八一建军节营销活动方案
2014/08/31 职场文书
出生公证书
2015/01/23 职场文书
检讨书怎么写
2015/01/23 职场文书
物业工程部经理岗位职责
2015/04/09 职场文书
学校青年志愿者活动总结
2015/05/06 职场文书
python神经网络学习 使用Keras进行回归运算
2022/05/04 Python
SQL SERVER中的流程控制语句
2022/05/25 SQL Server