Python数据集切分实例


Posted in Python onDecember 08, 2018

在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码。

'''
data:数据集
test_ratio:测试机占比
如果data为numpy.numpy.ndarray直接使用此代码
如果data为pandas.DatFrame类型则
  return data[train_indices],data[test_indices]
修改为
  return data.iloc[train_indices],data.iloc[test_indices]
'''
def split_train(data,test_ratio):
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

测试代码如下:

import numpy as np
import pandas as pd
data=np.random.randint(100,size=[25,4])
print(data)

结果如下:

Python数据集切分实例

Python数据集切分实例

从上图可以看出,原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点?每次调用次函数切分同一个数据集切分出来的结果都不一样,因此常在np.random.permutation(len(data))先调用np.random.seed(int)函数,来确保每次切分来的结果相同。

因此将上述函数改为:

def split_train(data,test_ratio):
  np.random.seed(43)
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

这个函数np.random.seed(43)当参数为同一整数时产生的随机数相同。

以上这篇Python数据集切分实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 布尔操作实现代码
Mar 23 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
对于Python的框架中一些会话程序的管理
Apr 20 Python
Python编程实现数学运算求一元二次方程的实根算法示例
Apr 02 Python
高效测试用例组织算法pairwise之Python实现方法
Jul 19 Python
Python基于回溯法子集树模板实现8皇后问题
Sep 01 Python
在Python中,不用while和for循环遍历列表的实例
Feb 20 Python
Python 脚本拉取 Docker 镜像问题
Nov 10 Python
使用python批量转换文件编码为UTF-8的实现
Apr 03 Python
PyQt5如何将.ui文件转换为.py文件的实例代码
May 26 Python
Python .py生成.pyd文件并打包.exe 的注意事项说明
Mar 04 Python
python+pyhyper实现识别图片中的车牌号思路详解
Dec 24 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 #Python
对python遍历文件夹中的所有jpg文件的实例详解
Dec 08 #Python
pandas求两个表格不相交的集合方法
Dec 08 #Python
对pytorch网络层结构的数组化详解
Dec 08 #Python
pytorch对可变长度序列的处理方法详解
Dec 08 #Python
pytorch 转换矩阵的维数位置方法
Dec 08 #Python
pytorch 调整某一维度数据顺序的方法
Dec 08 #Python
You might like
十天学会php之第三天
2006/10/09 PHP
[转帖]PHP世纪万年历
2006/12/06 PHP
在PHP中使用curl_init函数的说明
2010/11/02 PHP
hadoop常见错误以及处理方法详解
2013/06/19 PHP
浅析虚拟主机服务器php fsockopen函数被禁用的解决办法
2013/08/07 PHP
PHP 根据key 给二维数组分组
2016/12/09 PHP
Yii2 中实现单点登录的方法
2018/03/09 PHP
Extjs4.0设置Ext.data.Store传参的请求方式(默认为GET)
2013/04/02 Javascript
javascript函数式编程实例分析
2015/04/25 Javascript
Node.js巧妙实现Web应用代码热更新
2015/10/22 Javascript
深入理解Java线程编程中的阻塞队列容器
2015/12/07 Javascript
jQuery 获取多选框的值及多选框中文的函数
2016/05/16 Javascript
全面了解JavaScript对象进阶
2016/07/19 Javascript
yarn与npm的命令行小结
2016/10/20 Javascript
关于angularJs指令的Scope(作用域)介绍
2016/10/25 Javascript
JS对象的深度克隆方法示例
2017/03/16 Javascript
JS中Map和ForEach的区别
2018/02/05 Javascript
Node.js 使用axios读写influxDB的方法示例
2018/10/26 Javascript
ES6入门教程之变量的解构赋值详解
2019/04/13 Javascript
使用vue打包进行云服务器上传的问题
2020/03/02 Javascript
python+matplotlib绘制3D条形图实例代码
2018/01/17 Python
python接口自动化测试之接口数据依赖的实现方法
2019/04/26 Python
Python类中方法getitem和getattr详解
2019/08/30 Python
python的mysql数据库建立表与插入数据操作示例
2019/09/30 Python
使用python去除图片白色像素的实例
2019/12/12 Python
python GUI编程(Tkinter) 创建子窗口及在窗口上用图片绘图实例
2020/03/04 Python
python爬虫中的url下载器用法详解
2020/11/30 Python
用JAVA实现一种排序,JAVA类实现序列化的方法(二种)
2014/04/23 面试题
工程采购员岗位职责
2014/03/09 职场文书
酒店总经理岗位职责
2014/03/17 职场文书
质量承诺书范文
2014/03/27 职场文书
环境保护建议书
2014/08/26 职场文书
教师三严三实对照检查材料
2014/09/25 职场文书
班主任寄语2016
2015/12/04 职场文书
担保书怎么写 ?
2019/04/22 职场文书
如何写好一份优秀的工作总结?
2019/06/21 职场文书