Python数据集切分实例


Posted in Python onDecember 08, 2018

在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码。

'''
data:数据集
test_ratio:测试机占比
如果data为numpy.numpy.ndarray直接使用此代码
如果data为pandas.DatFrame类型则
  return data[train_indices],data[test_indices]
修改为
  return data.iloc[train_indices],data.iloc[test_indices]
'''
def split_train(data,test_ratio):
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

测试代码如下:

import numpy as np
import pandas as pd
data=np.random.randint(100,size=[25,4])
print(data)

结果如下:

Python数据集切分实例

Python数据集切分实例

从上图可以看出,原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点?每次调用次函数切分同一个数据集切分出来的结果都不一样,因此常在np.random.permutation(len(data))先调用np.random.seed(int)函数,来确保每次切分来的结果相同。

因此将上述函数改为:

def split_train(data,test_ratio):
  np.random.seed(43)
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

这个函数np.random.seed(43)当参数为同一整数时产生的随机数相同。

以上这篇Python数据集切分实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
介绍Python的@property装饰器的用法
Apr 28 Python
Python的Django框架中自定义模版标签的示例
Jul 20 Python
Python2/3中urllib库的一些常见用法
Dec 19 Python
python构建深度神经网络(DNN)
Mar 10 Python
Python中property函数用法实例分析
Jun 04 Python
Python多继承原理与用法示例
Aug 23 Python
python模拟菜刀反弹shell绕过限制【推荐】
Jun 25 Python
python函数不定长参数使用方法解析
Dec 14 Python
pycharm激活码有效到2020年11月底
Sep 18 Python
python实现贪吃蛇双人大战
Apr 18 Python
tensorflow指定CPU与GPU运算的方法实现
Apr 21 Python
python把一个字符串切开的实例方法
Sep 27 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 #Python
对python遍历文件夹中的所有jpg文件的实例详解
Dec 08 #Python
pandas求两个表格不相交的集合方法
Dec 08 #Python
对pytorch网络层结构的数组化详解
Dec 08 #Python
pytorch对可变长度序列的处理方法详解
Dec 08 #Python
pytorch 转换矩阵的维数位置方法
Dec 08 #Python
pytorch 调整某一维度数据顺序的方法
Dec 08 #Python
You might like
Linux Apache PHP Oracle 安装配置(具体操作步骤)
2013/06/17 PHP
CI框架中zip类应用示例
2014/06/17 PHP
php实现的SSO单点登录系统接入功能示例分析
2016/10/12 PHP
Javascript 的addEventListener()及attachEvent()区别分析
2009/05/21 Javascript
javascript 面向对象编程基础 多态
2009/08/21 Javascript
JS getMonth()日期函数的值域是0-11
2010/02/15 Javascript
javascript 文章截取部分无损html显示实现代码
2010/05/04 Javascript
浏览器打开层自动缓慢展开收缩实例代码
2013/07/04 Javascript
js中继承的几种用法总结(apply,call,prototype)
2013/12/26 Javascript
AngularJS语法详解
2015/01/23 Javascript
javascript引用类型之时间Date和数组Array
2015/08/27 Javascript
原生javascript实现匀速运动动画效果
2016/02/26 Javascript
js获取所有checkbox的值的简单实例
2016/05/30 Javascript
javascript实现将数字转成千分位的方法小结【5种方式】
2016/12/11 Javascript
javascript 面向对象function详解及实例代码
2017/02/28 Javascript
javascript 的变量、作用域和内存问题
2017/04/19 Javascript
利用Ionic2 + angular4实现一个地区选择组件
2017/07/27 Javascript
vue路由--网站导航功能详解
2019/03/29 Javascript
ES6 Array常用扩展的应用实例分析
2019/06/26 Javascript
vue 实现Web端的定位功能 获取经纬度
2019/08/08 Javascript
基于layui内置模块(element常用元素的操作)
2019/09/20 Javascript
[01:13:17]Secret vs NB 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
python处理csv数据的方法
2015/03/11 Python
python实现简单socket程序在两台电脑之间传输消息的方法
2015/03/13 Python
python3.5 + PyQt5 +Eric6 实现的一个计算器代码
2017/03/11 Python
Python队列的定义与使用方法示例
2017/06/24 Python
通过Python 获取Android设备信息的轻量级框架
2017/12/18 Python
Python列表切片操作实例总结
2019/02/19 Python
python实现图片九宫格分割
2021/03/07 Python
python实现PCA降维的示例详解
2020/02/24 Python
解决import tensorflow as tf 出错的原因
2020/04/16 Python
css animation配合SVG制作能量流动效果
2021/03/24 HTML / CSS
村干部承诺书
2014/03/28 职场文书
预备党员群众路线思想汇报2014
2014/10/25 职场文书
励志语录:时光飞逝,请学会珍惜所有的人和事
2020/01/16 职场文书
撤回我也能看到!教你用Python制作微信防撤回脚本
2021/06/11 Python