python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3的urllib.parse常用函数小结(urlencode,quote,quote_plus,unquote,unquote_plus等)
Sep 18 Python
Python数据分析之真实IP请求Pandas详解
Nov 18 Python
Python中摘要算法MD5,SHA1简介及应用实例代码
Jan 09 Python
人生苦短我用python python如何快速入门?
Mar 12 Python
浅谈python的dataframe与series的创建方法
Nov 12 Python
学习python的前途 python挣钱
Feb 27 Python
Python 中PyQt5 点击主窗口弹出另一个窗口的实现方法
Jul 04 Python
Python定时任务工具之APScheduler使用方式
Jul 24 Python
pytorch实现mnist分类的示例讲解
Jan 10 Python
python关于变量名的基础知识点
Mar 03 Python
python实现引用其他路径包里面的模块
Mar 09 Python
python 实用工具状态机transitions
Nov 21 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php 定义404页面的实现代码
2012/11/19 PHP
PHP设置Cookie的HTTPONLY属性方法
2017/02/09 PHP
Javascript实例教程(19) 使用HoTMetal(7)
2006/12/23 Javascript
extJs 文本框后面加上说明文字+下拉列表选中值后触发事件
2009/11/27 Javascript
JavaScript prototype属性使用说明
2010/05/13 Javascript
JS关键字变色实现思路及代码
2013/02/21 Javascript
JQuery选择器绑定事件及修改内容的方法
2015/01/23 Javascript
CSS图片响应式 垂直水平居中
2015/08/14 Javascript
解析JavaScript面向对象概念中的Object类型与作用域
2016/05/10 Javascript
json的使用小结
2016/06/08 Javascript
14 个折磨人的 JavaScript 面试题
2016/08/08 Javascript
angular中的http拦截器Interceptors的实现
2017/02/21 Javascript
jQuery实现三级联动效果
2017/03/02 Javascript
jquery dataTable 获取某行数据
2017/05/05 jQuery
AngularJS 中ui-view传参的实例详解
2017/08/25 Javascript
对类Vue的MVVM前端库的实现代码
2018/09/07 Javascript
JS/HTML5游戏常用算法之碰撞检测 包围盒检测算法详解【矩形情况】
2018/12/13 Javascript
微信小程序 调用微信授权窗口相关问题解决
2019/07/25 Javascript
Nautil 中使用双向数据绑定的实现
2019/10/02 Javascript
python的else子句使用指南
2016/02/27 Python
详解python 发送邮件实例代码
2016/12/22 Python
基于python3实现socket文件传输和校验
2018/07/28 Python
完美解决keras 读取多个hdf5文件进行训练的问题
2020/07/01 Python
css3之UI元素状态伪类选择器实例演示
2017/08/11 HTML / CSS
HTML5本地存储之IndexedDB
2017/06/16 HTML / CSS
Bally美国官网:经典瑞士鞋履、手袋及配饰奢侈品牌
2018/05/18 全球购物
阿玛尼美妆俄罗斯官网:Giorgio Armani Beauty RU
2020/07/19 全球购物
大唐电信科技股份有限公司java工程师面试经历
2016/12/09 面试题
婚庆公司的创业计划书
2014/01/22 职场文书
放飞蜻蜓反思
2014/02/05 职场文书
小学五年级学生评语
2014/04/22 职场文书
2014年医院工作总结
2014/11/20 职场文书
2014年医药代表工作总结
2014/11/22 职场文书
苏州园林导游词
2015/02/03 职场文书
李清照的诗词赏析(20首)
2019/08/22 职场文书
python中 .npy文件的读写操作实例
2022/04/14 Python