python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python编写简单的定时器的方法
May 02 Python
解决python3在anaconda下安装caffe失败的问题
Jun 15 Python
python实现pdf转换成word/txt纯文本文件
Jun 07 Python
对python修改xml文件的节点值方法详解
Dec 24 Python
python实现自动解数独小程序
Jan 21 Python
python自动化测试无法启动谷歌浏览器问题
Oct 10 Python
Python 去除字符串中指定字符串
Mar 05 Python
Python爬虫小例子——爬取51job发布的工作职位
Jul 10 Python
Python类成员继承重写的实现
Sep 16 Python
pandas按条件筛选数据的实现
Feb 20 Python
Python Selenium异常处理的实例分析
Feb 28 Python
Python获取字典中某个key的value
Apr 13 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php Smarty date_format [格式化时间日期]
2010/03/15 PHP
php漏洞之跨网站请求伪造与防止伪造方法
2013/08/15 PHP
PHP命名空间(namespace)的使用基础及示例
2014/08/18 PHP
php使用pdo连接mssql server数据库实例
2014/12/25 PHP
php实现通过cookie换肤的方法
2015/07/13 PHP
[Web]防止用户复制页面内容和另存页面的方法
2009/02/06 Javascript
使用JQUERY Tabs插件宿主IFRAMES
2010/01/01 Javascript
location.search在客户端获取Url参数的方法
2010/06/08 Javascript
ASP.NET中使用后端代码注册脚本 生成JQUERY-EASYUI的界面错位的解决方法
2010/06/12 Javascript
jquery选择器(常用选择器说明)
2010/09/28 Javascript
jQuery动态地获取系统时间实现代码
2013/05/24 Javascript
jquery实现点击向下展开菜单项(伸缩导航)效果
2015/08/22 Javascript
JS实现兼容性好,带缓冲的动感网页右键菜单效果
2015/09/18 Javascript
详解Bootstrap glyphicons字体图标
2016/01/04 Javascript
Javascript之面向对象--方法
2016/12/02 Javascript
Angular 4 指令快速入门教程
2017/06/07 Javascript
详解nodejs实现本地上传图片并预览功能(express4.0+)
2017/06/28 NodeJs
让div运动起来 js实现缓动效果
2017/07/06 Javascript
js实现首屏延迟加载实现方法 js实现多屏单张图片延迟加载效果
2017/07/17 Javascript
vue源码入口文件分析(推荐)
2018/01/30 Javascript
基于angular6.0实现的一个组件懒加载功能示例
2018/04/12 Javascript
[01:06] DOTA2英雄背景故事第三期之秩序法则光之守卫
2020/07/07 DOTA
深入理解NumPy简明教程---数组2
2016/12/17 Python
Django组件cookie与session的具体使用
2019/06/05 Python
深入了解Python iter() 方法的用法
2019/07/11 Python
opencv3/C++实现视频读取、视频写入
2019/12/11 Python
Django 拼接两个queryset 或是两个不可以相加的对象实例
2020/03/28 Python
用你熟悉的语言写一个连接ORACLE数据库的程序,能够完成修改和查询工作
2012/06/11 面试题
计算机专业职业规划
2014/02/28 职场文书
医院我们的节日活动实施方案
2014/08/22 职场文书
小学少先队活动总结
2015/05/08 职场文书
2015年大学教师工作总结
2015/05/20 职场文书
关于保护环境的建议书
2019/06/24 职场文书
详解CSS中的特指度和层叠问题
2021/07/15 HTML / CSS
javascript的setTimeout()使用方法总结
2021/11/20 Javascript
详细介绍Java中的CyclicBarrier
2022/04/13 Java/Android