Python sklearn KFold 生成交叉验证数据集的方法


Posted in Python onDecember 11, 2018

源起:

1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。

2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。

3.在编码过程中有一的误区需要注意:

这个sklearn官方给出的文档

>>> import numpy as np
>>> from sklearn.model_selection import KFold
 
>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...  print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

我之前犯的一个错误是将train,test理解成原数据集分割成子数据集之后的子数据集索引。而实际上,它就是原始数据集本身的样本索引。

源码:

# -*- coding:utf-8 -*-
# 得到交叉验证数据集,保存成CSV文件
# 输入是一个包含正常恶意标签的完整数据集,在读数据的时候分开保存到datasetBenign,datasetMalicious
# 分别对两个数据集进行KFold,最后合并保存
 
from sklearn.model_selection import KFold
import csv
 
def writeInFile(benignKFTrain, benignKFTest, maliciousKFTrain, maliciousKFTest, i, datasetBenign, datasetMalicious):
 newTrainFilePath = "E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\ImbalancedAllTraffic-train-%s.csv" % i
 newTestFilePath = "E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\IImbalancedAllTraffic-test-%s.csv" % i
 newTrainFile = open(newTrainFilePath, "wb")# wb 为防止空行
 newTestFile = open(newTestFilePath, "wb")
 writerTrain = csv.writer(newTrainFile)
 writerTest = csv.writer(newTestFile)
 for index in benignKFTrain:
  writerTrain.writerow(datasetBenign[index])
 for index in benignKFTest:
  writerTest.writerow(datasetBenign[index])
 for index in maliciousKFTrain:
  writerTrain.writerow(datasetMalicious[index])
 for index in maliciousKFTest:
  writerTest.writerow(datasetMalicious[index])
 newTrainFile.close()
 newTestFile.close()
 
 
def getKFoldDataSet(datasetPath):
 # CSV读取文件
 # 开始从文件中读取全部的数据集
 datasetFile = file(datasetPath, 'rb')
 datasetBenign = []
 datasetMalicious = []
 readerDataset = csv.reader(datasetFile)
 for line in readerDataset:
  if len(line) > 1:
   curLine = []
   curLine.append(float(line[0]))
   curLine.append(float(line[1]))
   curLine.append(float(line[2]))
   curLine.append(float(line[3]))
   curLine.append(float(line[4]))
   curLine.append(float(line[5]))
   curLine.append(float(line[6]))
   curLine.append(line[7])
   if line[7] == "benign":
    datasetBenign.append(curLine)
   else:
    datasetMalicious.append(curLine)
 
 # 交叉验证分割数据集
 K = 5
 kf = KFold(n_splits=K)
 benignKFTrain = []; benignKFTest = []
 for train,test in kf.split(datasetBenign):
  benignKFTrain.append(train)
  benignKFTest.append(test)
 maliciousKFTrain=[]; maliciousKFTest=[]
 for train,test in kf.split(datasetMalicious):
  maliciousKFTrain.append(train)
  maliciousKFTest.append(test)
 for i in range(K):
  print "======================== "+ str(i)+ " ========================"
  print benignKFTrain[i], benignKFTest[i]
  print maliciousKFTrain[i],maliciousKFTest[i]
  writeInFile(benignKFTrain[i], benignKFTest[i], maliciousKFTrain[i], maliciousKFTest[i], i, datasetBenign,
     datasetMalicious)
 
 datasetFile.close()
 
 
if __name__ == "__main__":
 
 getKFoldDataSet(r"E:\hadoopExperimentResult\5KFold\AllDataSetIIR10\dataset\ImbalancedAllTraffic-10.csv")

以上这篇Python sklearn KFold 生成交叉验证数据集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python对Excel进行读写操作
Mar 30 Python
Python rstrip()方法实例详解
Nov 11 Python
Python中print和return的作用及区别解析
May 05 Python
python3.6根据m3u8下载mp4视频
Jun 17 Python
Python创建或生成列表的操作方法
Jun 19 Python
Pandas DataFrame数据的更改、插入新增的列和行的方法
Jun 25 Python
Django组件content-type使用方法详解
Jul 19 Python
Form表单及django的form表单的补充
Jul 25 Python
Django import export实现数据库导入导出方式
Apr 03 Python
使用SQLAlchemy操作数据库表过程解析
Jun 10 Python
python操作微信自动发消息的实现(微信聊天机器人)
Jul 14 Python
python爬虫如何解决图片验证码
Feb 14 Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
You might like
Windows2003 下 MySQL 数据库每天自动备份
2006/12/21 PHP
用PHP实现读取和编写XML DOM代码
2010/04/07 PHP
php笔记之:php函数range() round()和list()的使用说明
2013/04/26 PHP
php获取访问者IP地址汇总
2015/04/24 PHP
laravel框架上传图片实现实时预览功能
2019/10/14 PHP
PHP项目多语言配置平台实现过程解析
2020/05/18 PHP
JavaScript 异步调用框架 (Part 1 - 问题 & 场景)
2009/08/03 Javascript
JavaScript 原型链学习总结
2010/10/29 Javascript
IE6下CSS图片缓存问题解决方法
2010/12/09 Javascript
随窗体滑动的小插件sticky源码
2013/06/21 Javascript
jquery实现微博文字输入框 输入时显示输入字数 效果实现
2013/07/12 Javascript
jquery动态加载js三种方法实例
2013/08/03 Javascript
JavaScript数据结构和算法之图和图算法
2015/02/11 Javascript
Javascript的表单与验证-非空验证
2016/03/18 Javascript
JS简单编号生成器实现方法(附demo源码下载)
2016/04/05 Javascript
使用jquery.qrcode.js生成二维码插件
2016/10/17 Javascript
老生常谈js中的MVC
2017/07/25 Javascript
Javascript(es2016) import和require用法和区别详解
2017/08/11 Javascript
jQuery中.attr()和.data()的区别分析
2017/09/03 jQuery
Node.js 使用流实现读写同步边读边写功能
2017/09/11 Javascript
JS前端面试必备——基本排序算法原理与实现方法详解【插入/选择/归并/冒泡/快速排序】
2020/02/24 Javascript
Python基础教程之tcp socket编程详解及简单实例
2017/02/23 Python
Python实现对一个函数应用多个装饰器的方法示例
2018/02/09 Python
python pandas库中DataFrame对行和列的操作实例讲解
2018/06/09 Python
Python实现的tcp端口检测操作示例
2018/07/24 Python
Python数据可视化库seaborn的使用总结
2019/01/15 Python
python3爬虫GIL修改多线程实例讲解
2020/11/24 Python
python中判断数字是否为质数的实例讲解
2020/12/06 Python
matplotlib之pyplot模块坐标轴标签设置使用(xlabel()、ylabel())
2021/02/22 Python
运动会通讯稿300字
2014/02/02 职场文书
社区活动策划方案
2014/08/21 职场文书
个人作风建设总结
2014/10/23 职场文书
应聘教师自荐信
2015/03/26 职场文书
男方家长婚礼答谢词
2015/09/29 职场文书
分享很少见很有用的SQL功能CORRESPONDING
2022/08/05 MySQL
Win11 22H2 2022怎么更新? 获得Win1122H22022版本升级技巧
2022/09/23 数码科技