Python数据集切分实例


Posted in Python onDecember 08, 2018

在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码。

'''
data:数据集
test_ratio:测试机占比
如果data为numpy.numpy.ndarray直接使用此代码
如果data为pandas.DatFrame类型则
  return data[train_indices],data[test_indices]
修改为
  return data.iloc[train_indices],data.iloc[test_indices]
'''
def split_train(data,test_ratio):
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

测试代码如下:

import numpy as np
import pandas as pd
data=np.random.randint(100,size=[25,4])
print(data)

结果如下:

Python数据集切分实例

Python数据集切分实例

从上图可以看出,原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点?每次调用次函数切分同一个数据集切分出来的结果都不一样,因此常在np.random.permutation(len(data))先调用np.random.seed(int)函数,来确保每次切分来的结果相同。

因此将上述函数改为:

def split_train(data,test_ratio):
  np.random.seed(43)
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

这个函数np.random.seed(43)当参数为同一整数时产生的随机数相同。

以上这篇Python数据集切分实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 数据加密代码
Dec 24 Python
python连接mongodb操作数据示例(mongodb数据库配置类)
Dec 31 Python
PyQt5每天必学之创建窗口居中效果
Apr 19 Python
python通过zabbix api获取主机
Sep 17 Python
python爬虫获取新浪新闻教学
Dec 23 Python
python单线程文件传输的实例(C/S)
Feb 13 Python
Python魔法方法功能与用法简介
Apr 04 Python
python腾讯语音合成实现过程解析
Aug 01 Python
Python3网络爬虫开发实战之极验滑动验证码的识别
Aug 02 Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 Python
python 递归相关知识总结
Mar 03 Python
详解MindSpore自定义模型损失函数
Jun 30 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 #Python
对python遍历文件夹中的所有jpg文件的实例详解
Dec 08 #Python
pandas求两个表格不相交的集合方法
Dec 08 #Python
对pytorch网络层结构的数组化详解
Dec 08 #Python
pytorch对可变长度序列的处理方法详解
Dec 08 #Python
pytorch 转换矩阵的维数位置方法
Dec 08 #Python
pytorch 调整某一维度数据顺序的方法
Dec 08 #Python
You might like
mysql 字段类型说明
2007/04/27 PHP
php 分页原理详解
2009/08/21 PHP
php删除数组中重复元素的方法
2015/12/22 PHP
PHP中十六进制颜色与RGB颜色值互转的方法
2019/03/18 PHP
laravel 修改.htaccess文件 重定向public的解决方法
2019/10/12 PHP
在一个浏览器里呈现所有浏览器测试结果的前端测试工具的思路
2010/03/02 Javascript
JS 遮照层实现代码
2010/03/31 Javascript
jquery 选择器引擎sizzle浅析
2013/02/06 Javascript
zTree插件之单选下拉菜单实例代码
2013/11/07 Javascript
JavaScript验证电子邮箱的函数
2014/08/22 Javascript
Javascript闭包与函数柯里化浅析
2016/06/22 Javascript
jQuery.ajax 跨域请求webapi设置headers的解决方案
2016/08/08 Javascript
浅谈jQuery中的checkbox问题
2016/08/10 Javascript
jQuery学习笔记之回调函数
2016/08/15 Javascript
通过AngularJS实现图片上传及缩略图展示示例
2017/01/03 Javascript
jQuery实现的省市联动菜单功能示例【测试可用】
2017/01/13 Javascript
解决Node.js使用MySQL出现connect ECONNREFUSED 127.0.0.1:3306的问题
2017/03/09 Javascript
Vue2.x中的Render函数详解
2017/05/30 Javascript
vue更改数组中的值实例代码详解
2020/02/07 Javascript
Vue 监听元素前后变化值实例
2020/07/29 Javascript
[50:20]DOTA2上海特级锦标赛主赛事日 - 5 总决赛Liquid VS Secret第四局
2016/03/06 DOTA
Python基于pygame实现的弹力球效果(附源码)
2015/11/11 Python
Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
2018/03/19 Python
python批量处理文件或文件夹
2020/07/28 Python
python编写猜数字小游戏
2019/10/06 Python
CSS3 网页下拉菜单代码解释 中文翻译
2010/02/27 HTML / CSS
捷克厨房用品购物网站:Tescoma
2018/07/13 全球购物
意大利和国际奢侈品牌购物网站:Suitnegozi.com
2021/01/15 全球购物
大学生期末自我鉴定
2014/02/01 职场文书
喝酒检查书范文
2014/02/23 职场文书
2014教师年度思想工作总结
2014/11/10 职场文书
庆七一活动简报
2015/07/20 职场文书
想要创业,那么你做好准备了吗?
2019/07/01 职场文书
PyTorch 如何自动计算梯度
2021/05/23 Python
浅谈自定义校验注解ConstraintValidator
2021/06/30 Java/Android
【TED出品】天梯非主流开心游1700 划水骑士
2022/03/31 魔兽争霸