Python数据集切分实例


Posted in Python onDecember 08, 2018

在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码。

'''
data:数据集
test_ratio:测试机占比
如果data为numpy.numpy.ndarray直接使用此代码
如果data为pandas.DatFrame类型则
  return data[train_indices],data[test_indices]
修改为
  return data.iloc[train_indices],data.iloc[test_indices]
'''
def split_train(data,test_ratio):
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

测试代码如下:

import numpy as np
import pandas as pd
data=np.random.randint(100,size=[25,4])
print(data)

结果如下:

Python数据集切分实例

Python数据集切分实例

从上图可以看出,原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点?每次调用次函数切分同一个数据集切分出来的结果都不一样,因此常在np.random.permutation(len(data))先调用np.random.seed(int)函数,来确保每次切分来的结果相同。

因此将上述函数改为:

def split_train(data,test_ratio):
  np.random.seed(43)
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

这个函数np.random.seed(43)当参数为同一整数时产生的随机数相同。

以上这篇Python数据集切分实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用glob和rmtree删除目录子目录及所有文件的例子
Nov 21 Python
Python中Selenium模拟JQuery滑动解锁实例
Jul 26 Python
利用Python如何实现数据驱动的接口自动化测试
May 11 Python
Python实现的json文件读取及中文乱码显示问题解决方法
Aug 06 Python
python获取中文字符串长度的方法
Nov 14 Python
Django RBAC权限管理设计过程详解
Aug 06 Python
Python一行代码解决矩阵旋转的问题
Nov 30 Python
torch 中各种图像格式转换的实现方法
Dec 26 Python
python Popen 获取输出,等待运行完成示例
Dec 30 Python
使用python实现时间序列白噪声检验方式
Jun 03 Python
python pygame 愤怒的小鸟游戏示例代码
Feb 25 Python
Pytorch中的数据集划分&正则化方法
May 27 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 #Python
对python遍历文件夹中的所有jpg文件的实例详解
Dec 08 #Python
pandas求两个表格不相交的集合方法
Dec 08 #Python
对pytorch网络层结构的数组化详解
Dec 08 #Python
pytorch对可变长度序列的处理方法详解
Dec 08 #Python
pytorch 转换矩阵的维数位置方法
Dec 08 #Python
pytorch 调整某一维度数据顺序的方法
Dec 08 #Python
You might like
纯php打造的tab选项卡效果代码(不用js)
2010/12/29 PHP
使用新浪微博API的OAuth认证发布微博实例
2015/03/27 PHP
百度工程师讲PHP函数的实现原理及性能分析(三)
2015/05/13 PHP
php中文字符串截取多种方法汇总
2016/10/06 PHP
PHP设计模式之 策略模式Strategy详解【对象行为型】
2020/05/01 PHP
用javascript实现无刷新更新数据的详细步骤 asp
2006/12/26 Javascript
JavaScript 判断指定字符串是否为有效数字
2010/05/11 Javascript
javascript 子窗体父窗体相互传值方法
2010/05/31 Javascript
常用Extjs工具:Extjs.util.Format使用方法
2012/03/22 Javascript
JQuery切换显示的效果实例代码
2013/02/27 Javascript
用jQuery实现一些导航条切换,显示隐藏的实例代码
2013/06/08 Javascript
JavaScript编写简单的计算器
2015/11/25 Javascript
浅析Nodejs npm常用命令
2016/06/14 NodeJs
jquery属性,遍历,HTML操作方法详解
2016/09/17 Javascript
js阻止冒泡和默认事件(默认行为)详解
2016/10/20 Javascript
webpack多入口文件页面打包配置详解
2018/01/09 Javascript
vue单页面打包文件大?首次加载慢?nginx带你飞,从7.5M到1.3M蜕变过程(推荐)
2018/01/16 Javascript
vue源码入口文件分析(推荐)
2018/01/30 Javascript
jQuery实现动态添加和删除input框代码实例
2019/03/29 jQuery
微信小程序中button去除默认的边框实例代码
2019/08/01 Javascript
vue-next/runtime-core 源码阅读指南详解
2019/10/25 Javascript
vue数据响应式原理知识点总结
2020/02/16 Javascript
JavaScript实现世界各地时间显示
2020/09/07 Javascript
如何在JavaScript中等分数组的实现
2020/12/13 Javascript
Python3导入自定义模块的三种方法详解
2018/04/13 Python
python图形界面开发之wxPython树控件使用方法详解
2020/02/24 Python
水污染治理专业毕业生推荐信
2013/11/14 职场文书
咖啡蛋糕店创业计划书
2014/01/28 职场文书
阳光体育活动总结
2014/04/30 职场文书
村干部培训方案
2014/05/02 职场文书
大学生就业自荐书
2014/06/16 职场文书
运动员获奖感言
2014/08/15 职场文书
三年级上册科学教学计划
2015/01/21 职场文书
小区保洁员岗位职责
2015/04/10 职场文书
中标通知书
2015/04/17 职场文书
前端canvas中物体边框和控制点的实现示例
2022/08/05 Javascript