Python数据集切分实例


Posted in Python onDecember 08, 2018

在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码。

'''
data:数据集
test_ratio:测试机占比
如果data为numpy.numpy.ndarray直接使用此代码
如果data为pandas.DatFrame类型则
  return data[train_indices],data[test_indices]
修改为
  return data.iloc[train_indices],data.iloc[test_indices]
'''
def split_train(data,test_ratio):
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

测试代码如下:

import numpy as np
import pandas as pd
data=np.random.randint(100,size=[25,4])
print(data)

结果如下:

Python数据集切分实例

Python数据集切分实例

从上图可以看出,原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点?每次调用次函数切分同一个数据集切分出来的结果都不一样,因此常在np.random.permutation(len(data))先调用np.random.seed(int)函数,来确保每次切分来的结果相同。

因此将上述函数改为:

def split_train(data,test_ratio):
  np.random.seed(43)
  shuffled_indices=np.random.permutation(len(data))
  test_set_size=int(len(data)*test_ratio)
  test_indices =shuffled_indices[:test_set_size]
  train_indices=shuffled_indices[test_set_size:]
  return data[train_indices],data[test_indices]

这个函数np.random.seed(43)当参数为同一整数时产生的随机数相同。

以上这篇Python数据集切分实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python进阶教程之异常处理
Aug 30 Python
python通过文件头判断文件类型
Oct 30 Python
python抓取文件夹的所有文件
Feb 27 Python
解决python super()调用多重继承函数的问题
Jun 26 Python
python实现两个经纬度点之间的距离和方位角的方法
Jul 05 Python
django框架使用方法详解
Jul 18 Python
python验证码图片处理(二值化)
Nov 01 Python
TensorFlow梯度求解tf.gradients实例
Feb 04 Python
Python栈的实现方法示例【列表、单链表】
Feb 22 Python
Python requests.post方法中data与json参数区别详解
Apr 30 Python
python爬虫实例之获取动漫截图
May 31 Python
一篇文章教你用python画动态爱心表白
Nov 22 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 #Python
对python遍历文件夹中的所有jpg文件的实例详解
Dec 08 #Python
pandas求两个表格不相交的集合方法
Dec 08 #Python
对pytorch网络层结构的数组化详解
Dec 08 #Python
pytorch对可变长度序列的处理方法详解
Dec 08 #Python
pytorch 转换矩阵的维数位置方法
Dec 08 #Python
pytorch 调整某一维度数据顺序的方法
Dec 08 #Python
You might like
用PHP开发GUI
2006/10/09 PHP
PHP最常用的ini函数分析 针对PHP.ini配置文件
2010/04/22 PHP
自定义php类(查找/修改)xml文档
2013/03/26 PHP
Thinkphp搜索时首页分页和搜索页保持条件分页的方法
2014/12/05 PHP
php操作redis数据库常见方法实例总结
2020/02/20 PHP
JQuery 确定css方框模型(盒模型Box Model)
2010/01/22 Javascript
javascript阻止浏览器后退事件防止误操作清空表单
2013/11/22 Javascript
iframe窗口高度自适应的又一个巧妙实现思路
2014/04/04 Javascript
浅谈利用JavaScript进行的DDoS攻击原理与防御
2015/06/04 Javascript
JQuery中ajax方法访问web服务实例
2015/07/18 Javascript
js实现的彩色方块飞舞奇幻效果
2016/01/27 Javascript
Js调用Java方法并互相传参的简单实例
2016/08/11 Javascript
微信小程序 页面跳转及数据传递详解
2017/03/14 Javascript
javascript函数的节流[throttle]与防抖[debounce]
2017/11/15 Javascript
详解微信图片防盗链“此图片来自微信公众平台 未经允许不得引用”的解决方案
2019/04/04 Javascript
js实现时分秒倒计时
2019/12/03 Javascript
python网络编程学习笔记(一)
2014/06/09 Python
Python中threading模块join函数用法实例分析
2015/06/04 Python
Python打印斐波拉契数列实例
2015/07/07 Python
python实现批量解析邮件并下载附件
2018/06/19 Python
Python使用MyQR制作专属动态彩色二维码功能
2019/06/04 Python
Python读写文件基础知识点
2019/06/10 Python
python实现TCP文件传输
2020/03/20 Python
python3实现语音转文字(语音识别)和文字转语音(语音合成)
2020/10/14 Python
基于HTML5陀螺仪实现ofo首页眼睛移动效果的示例
2017/07/31 HTML / CSS
html5视频常用API接口的实战示例
2020/03/20 HTML / CSS
Baracuta官方网站:Harrington夹克,G9,G4,G10等
2018/03/06 全球购物
应届本科生推荐信范文
2013/12/25 职场文书
学期研究性学习个人的自我评价
2014/01/09 职场文书
暑期社会实践心得体会
2014/09/02 职场文书
优秀教研组申报材料
2014/12/26 职场文书
教师个人成长总结
2015/02/11 职场文书
大学生敬老院活动总结
2015/05/07 职场文书
十二生肖观后感
2015/06/12 职场文书
CocosCreator如何实现划过的位置显示纹理
2021/04/14 Javascript
JavaScript实现外溢动态爱心的效果的示例代码
2022/03/21 Javascript