python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python urllib urlopen()对象方法/代理的补充说明
Jun 29 Python
Python编程实现及时获取新邮件的方法示例
Aug 10 Python
pygame游戏之旅 添加icon和bgm音效的方法
Nov 21 Python
对Python生成器、装饰器、递归的使用详解
Jul 19 Python
python+numpy实现的基本矩阵操作示例
Jul 19 Python
python3实现弹弹球小游戏
Nov 25 Python
Pycharm和Idea支持的vim插件的方法
Feb 21 Python
Python递归求出列表(包括列表中的子列表)的最大值实例
Feb 27 Python
Python爬虫程序架构和运行流程原理解析
Mar 09 Python
Python实现打包成库供别的模块调用
Jul 13 Python
如何通过一篇文章了解Python中的生成器
Apr 02 Python
python使用opencv对图像添加噪声(高斯/椒盐/泊松/斑点)
Apr 06 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php && 逻辑与运算符使用说明
2010/03/04 PHP
PHP数组内存耗用太多问题的解决方法
2010/04/05 PHP
为IP查询添加GOOGLE地图功能的代码
2010/08/08 PHP
PHP实现HTML生成PDF文件的方法
2014/11/07 PHP
php替换字符串中间字符为省略号的方法
2015/05/04 PHP
php实现的微信红包算法分析(非官方)
2015/09/25 PHP
php通过curl添加cookie伪造登陆抓取数据的方法
2016/04/02 PHP
PHP实现删除多重数组对象属性并重新赋值的方法
2017/06/07 PHP
node.js使用npm 安装插件时提示install Error: ENOENT报错的解决方法
2014/11/20 Javascript
使用jQuery实现更改默认alert框体
2015/04/13 Javascript
jQuery实现模拟marquee标签效果
2015/07/14 Javascript
浅谈Javascript中的12种DOM节点类型
2016/08/19 Javascript
jQuery实现可拖拽的许愿墙效果【附demo源码下载】
2016/09/14 Javascript
使用JS判断页面是首次被加载还是刷新
2019/05/26 Javascript
python实现迭代法求方程组的根过程解析
2019/11/25 Javascript
利用vue3+ts实现管理后台(增删改查)
2020/10/30 Javascript
使用C语言来扩展Python程序和Zope服务器的教程
2015/04/14 Python
实例解析Python的Twisted框架中Deferred对象的用法
2016/05/25 Python
python实现下载整个ftp目录的方法
2017/01/17 Python
python3爬虫获取html内容及各属性值的方法
2018/12/17 Python
在pycharm中使用git版本管理以及同步github的方法
2019/01/16 Python
python实现抠图给证件照换背景源码
2019/08/20 Python
python读取Excel表格文件的方法
2019/09/02 Python
tensorflow之并行读入数据详解
2020/02/05 Python
canvas实现按住鼠标移动绘制出轨迹的示例代码
2018/02/05 HTML / CSS
HTML5 图片预加载的示例代码
2020/03/25 HTML / CSS
uniapp+Html5端实现PC端适配
2020/07/15 HTML / CSS
有原因的手表:Flex Watches
2019/03/23 全球购物
美术专业个人自我评价
2014/01/18 职场文书
群众路线教育实践活动心得体会
2014/03/07 职场文书
财务部副经理岗位职责
2014/03/14 职场文书
2014年乡镇工作总结
2014/11/21 职场文书
2015元旦标语横幅
2014/12/09 职场文书
英语辞职信范文
2015/02/28 职场文书
反腐倡廉观后感
2015/06/08 职场文书
浅谈Python中对象是如何被调用的
2022/04/06 Python