详解python实现交叉验证法与留出法


Posted in Python onJuly 11, 2019

在机器学习中,我们经常在训练集上训练模型,在测试集上测试模型。最终的目标是希望我们的模型在测试集上有最好的表现。

但是,我们往往只有一个包含m个观测的数据集D,我们既要用它进行训练,又要对它进行测试。此时,我们就需要对数据集D进行划分。

对于数据集D的划分,我们尽量需要满足三个要求:

  1. 训练集样本量充足
  2. 训练模型时的计算量可以忍受
  3. 不同的划分方式会得出不同的训练集和测试集,从而得出不同的结果,我们需要消除这种影响

我们将分别介绍留出法、交叉验证法,以及各自的python实现。自助法(bootstrapping)将在下篇中加以介绍。

1.留出法

留出法是最常用最直接最简单的方法,它直接将数据集D拆分成两个互斥的集合,其中一个作为训练集R,另一个作为测试集T。 即

详解python实现交叉验证法与留出法

在使用留出法时,需要注意:

  1. 要有足够的样本量,以保证训练模型的效果
  2. 在划分时注意保证数据分布的一致性(如:500个样本中正例和反例的比为2:3,则在训练集和测试集中正例和反例的比也要求为2:3),只需要采用随机分层抽样即可
  3. 为了减弱随机划分的影响,重复划分训练集和测试集,对得到的多次结果取平均作为最后的结果
  4. 一般训练集和测试集的比例在8:2或者7:3

当然留出法的缺点也非常明显,即它会损失一定的样本信息;同时需要大样本

python实现留出法,只需要使用sklearn包就可以

from sklearn.model_selection import train_test_split
#使用train_test_split划分训练集和测试集
train_X , test_X, train_Y ,test_Y = train_test_split(
  X, Y, test_size=0.2,random_state=0)
''' 
X为原始数据的自变量,Y为原始数据因变量;
train_X,test_X是将X按照8:2划分所得;
train_Y,test_Y是将X按照8:2划分所得;
test_size是划分比例;
random_state设置是否使用随机数
'''

2.交叉验证法

交叉验证法(cross validation)可以很好地解决留出法的问题,它对数据量的要求不高,并且样本信息损失不多。

交叉验证法先将数据集D划分为k个大小相似的互斥子集,即

详解python实现交叉验证法与留出法 

为了保证数据分布的一致性,从D中随机分层抽样即可。

之后,每次都用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样我们就可以获得k组训练/测试集,从而进行k次训练和测试,最终返回这k组测试的均值。

具体说来,我们以k=10为例:
第一次我们选取第10份数据为测试集,前9份为训练集;
第二次我们选取第9份数据为测试集,第1-8和10为训练集;

第十次我们选取第1份数据为测试集,第2-9为训练集;
由此,我们共获得10组训练集和测试集,进行10次训练和测试,最终返回10次测试结果的均值。

显然,交叉验证法结果的稳定性和保真性很大程度取决于k的选择,为了强调这一点,交叉验证法也称作“k折交叉验证法”,k最常取的是10,也有取5或者20的。

详解python实现交叉验证法与留出法

同时,我们也需要避免由于数据划分的随机性造成的误差,我们可以重复进行p次实验。

p次k折交叉验证法,相当于做了pk次留出法(比例为k-1:1)

python实现交叉验证法,只需要使用sklearn包就可以。注意,函数返回的是样本序号。

import pandas as pd
from sklearn.model_selection import KFold

data = pd.read_excel('') #导入数据
kf = KFold(n_splits = 4,shuffle = False,random_state = None) 
'''n_splits表示将数据分成几份;shuffle和random_state表示是否随机生成。
如果shuffle = False,random_state = None,重复运行将产生同样的结果;
如果shuffle = True,random_state = None,重复运行将产生不同的结果;
如果shuffle = True,random_state = (一个数值),重复运行将产生相同的结果;
'''
for train, test in kf.split(data):
 print("%s %s" % (train, test))
 '''
 结果
[ 5 6 7 8 9 10 11 12 13 14 15 16 17 18] [0 1 2 3 4]
[ 0 1 2 3 4 10 11 12 13 14 15 16 17 18] [5 6 7 8 9]
[ 0 1 2 3 4 5 6 7 8 9 15 16 17 18] [10 11 12 13 14]
[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14] [15 16 17 18]
'''

如果想对数据集重复几次使用交叉验证法划分的话,使用RepeatedKFold函数即可,其中多了一个参数n_repeats

与留出法相比,交叉验证法的数据损失较小,更加适合于小样本,但是其计算复杂度变高,存储空间变大。极端的说来,如果将数据集D(m个样本)分成m份,每次都取m-1个样本为训练集,余下的那一个为测试集。共进行m次训练和测试。这种方法被叫做留一法。

留一法的优点显而易见,其数据损失只有一个样本,并且不会受到样本随即划分的影响。但是,其计算复杂度过高,空间存储占用过大。

python实现交叉验证法,只需要使用sklearn包就可以

from sklearn.model_selection import LeaveOneOut

X = [1, 2, 3, 4]
loo = LeaveOneOut()
for train, test in loo.split(data):
 print("%s %s" % (train, test))
'''结果
[1 2 3] [0]
[0 2 3] [1]
[0 1 3] [2]
[0 1 2] [3]
'''

综上所述:

  1. 当我们数据量足够时,选择留出法简单省时,在牺牲很小的准确度的情况下,换取计算的简便;
  2. 当我们的数据量较小时,我们应该选择交叉验证法,因为此时划分样本集将会使训练数据过少;
  3. 当我们的数据量特别少的时候,我们可以考虑留一法。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Windows下用py2exe将Python程序打包成exe程序的教程
Apr 08 Python
Python聚类算法之凝聚层次聚类实例分析
Nov 20 Python
Python正则抓取网易新闻的方法示例
Apr 21 Python
Python在信息学竞赛中的运用及Python的基本用法(详解)
Aug 15 Python
Python迭代器与生成器用法实例分析
Jul 09 Python
python科学计算之numpy——ufunc函数用法
Nov 25 Python
Python3 把一个列表按指定数目分成多个列表的方式
Dec 25 Python
python GUI库图形界面开发之PyQt5打开保存对话框QFileDialog详细使用方法与实例
Feb 27 Python
利用 PyCharm 实现本地代码和远端的实时同步功能
Mar 23 Python
Python字符串格式化f-string多种功能实现
May 07 Python
如何用python免费看美剧
Aug 11 Python
Python Opencv轮廓常用操作代码实例解析
Sep 01 Python
python程序运行进程、使用时间、剩余时间显示功能的实现代码
Jul 11 #Python
Python循环中else,break和continue的用法实例详解
Jul 11 #Python
Python 获取 datax 执行结果保存到数据库的方法
Jul 11 #Python
python opencv捕获摄像头并显示内容的实现
Jul 11 #Python
python 将日期戳(五位数时间)转换为标准时间
Jul 11 #Python
用Python获取摄像头并实时控制人脸的实现示例
Jul 11 #Python
python实现LBP方法提取图像纹理特征实现分类的步骤
Jul 11 #Python
You might like
无线电广播的开始
2002/01/30 无线电
深入php define()函数以及defined()函数的用法详解
2013/06/05 PHP
解析php中die(),exit(),return的区别
2013/06/20 PHP
ThinkPHP CURD方法之order方法详解
2014/06/18 PHP
jQuery 使用手册(三)
2009/09/23 Javascript
js跨域问题之跨域iframe自适应大小实现代码
2010/07/17 Javascript
JS的encodeURI和java的URLDecoder.decode使用介绍
2014/05/08 Javascript
JS打开新窗口防止被浏览器阻止的方法
2015/01/03 Javascript
js鼠标按键事件和键盘按键事件用法实例汇总
2016/10/03 Javascript
bootstrap常用组件之头部导航实现代码
2017/04/20 Javascript
angularJs利用$scope处理升降序的方法
2018/10/08 Javascript
深入浅析Vue 中 ref 的使用
2019/04/29 Javascript
微信小程序中如何计算距离某个节日还有多少天
2019/07/15 Javascript
转换layUI的数据表格中的日期格式方法
2019/09/19 Javascript
Vue如何获取数据列表展示
2019/12/11 Javascript
Vue的双向数据绑定实现原理解析
2020/02/17 Javascript
基于原生js实现判断元素是否有指定class名
2020/07/11 Javascript
vue组件中实现嵌套子组件案例
2020/08/31 Javascript
[42:27]DOTA2上海特级锦标赛主赛事日 - 3 败者组第三轮#2Fnatic VS OG第三局
2016/03/05 DOTA
[54:18]DOTA2-DPC中国联赛 正赛 PSG.LGD vs LBZS BO3 第一场 1月22日
2021/03/11 DOTA
用python的requests第三方模块抓取王者荣耀所有英雄的皮肤实例
2017/12/14 Python
Python中sort和sorted函数代码解析
2018/01/25 Python
python dataframe 输出结果整行显示的方法
2018/06/14 Python
Python面向对象程序设计OOP入门教程【类,实例,继承,重载等】
2019/01/05 Python
python占位符输入方式实例
2019/05/27 Python
Python实现Appium端口检测与释放的实现
2020/12/31 Python
利用css3-animation实现逐帧动画效果
2016/03/10 HTML / CSS
Skyscanner阿联酋:全球领先的旅游搜索平台
2017/11/25 全球购物
Crabtree & Evelyn英国官网:瑰珀翠护手霜、香水、沐浴和身体护理
2018/04/26 全球购物
Puma印度官网:德国运动品牌
2019/10/06 全球购物
优秀员工获奖感言
2014/03/01 职场文书
授权委托书格式范文
2014/08/02 职场文书
2015年幼儿园保育工作总结
2015/05/12 职场文书
公司宣传语大全
2015/07/13 职场文书
浅析MongoDB之安全认证
2021/06/26 MongoDB
vue动态绑定style样式
2022/04/20 Vue.js