python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
深入理解Python中字典的键的使用
Aug 19 Python
Python代码解决RenderView窗口not found问题
Aug 28 Python
python实现决策树
Dec 21 Python
Python运维之获取系统CPU信息的实现方法
Jun 11 Python
解决tensorflow模型参数保存和加载的问题
Jul 26 Python
Django管理员账号和密码忘记的完美解决方法
Dec 06 Python
python中时间模块的基本使用教程
May 14 Python
扩展Django admin的list_filter()可使用范围方法
Aug 21 Python
python 根据网易云歌曲的ID 直接下载歌曲的实例
Aug 24 Python
matplotlib 多个图像共用一个colorbar的实现示例
Sep 10 Python
python 爬虫网页登陆的简单实现
Nov 30 Python
如何使用Python提取Chrome浏览器保存的密码
Jun 09 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
别人整理的服务器变量:$_SERVER
2006/10/20 PHP
Discuz!下Memcache缓存实现方法
2010/05/28 PHP
php通用防注入程序 推荐
2011/02/26 PHP
新浪SAE云平台下使用codeigniter的数据库配置
2014/06/12 PHP
Laravel 5框架学习之子视图和表单复用
2015/04/09 PHP
php7新特性的理解和比较总结
2019/04/14 PHP
PHP数组对象与Json转换操作实例分析
2019/10/22 PHP
FireFox JavaScript全局Event对象
2009/06/14 Javascript
jQuery fadeTo方法调整图片的透明度使用介绍
2013/05/06 Javascript
js创建对象几种方式的优缺点对比
2016/09/28 Javascript
node.js的事件机制
2017/02/08 Javascript
微信小程序之电影影评小程序制作代码
2017/08/03 Javascript
React中常见的动画实现的几种方式
2018/01/10 Javascript
JavaScript实现删除数组重复元素的5种常用高效算法总结
2018/01/18 Javascript
JS实现图片轮播效果实例详解【可自动和手动】
2019/04/04 Javascript
vue.js表单验证插件(vee-validate)的使用教程详解
2019/05/23 Javascript
js设计模式之代理模式及订阅发布模式实例详解
2019/08/15 Javascript
微信公众号开发之微信支付代码记录的实现
2019/10/16 Javascript
JavaScript实现滚动加载更多
2020/12/27 Javascript
vue项目配置 webpack-obfuscator 进行代码加密混淆的实现
2021/02/26 Vue.js
深入理解python中的闭包和装饰器
2016/06/12 Python
Django框架的使用教程路由请求响应的方法
2018/07/03 Python
python数据批量写入ScrolledText的优化方法
2018/10/11 Python
详解python statistics模块及函数用法
2019/10/27 Python
基于python实现语音录入识别代码实例
2020/01/17 Python
python中append函数用法讲解
2020/12/11 Python
HTML5的postMessage的使用手册
2018/12/19 HTML / CSS
美国杂志订阅折扣与优惠网站:Magazines.com
2016/08/31 全球购物
Blank NYC官网:夹克、牛仔裤等
2020/12/16 全球购物
与UNIX有关的几个名词
2015/09/17 面试题
2014年四风问题个人对照自查剖析材料
2014/09/15 职场文书
实习单位推荐信
2015/03/27 职场文书
入党积极分子党小组意见
2015/06/02 职场文书
Python数据分析之pandas函数详解
2021/04/21 Python
Python干货实战之八音符酱小游戏全过程详解
2021/10/24 Python
python中的3种定义类方法
2021/11/27 Python