python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现批量获取指定文件夹下的所有文件的厂商信息
Sep 28 Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 Python
Python高级用法总结
May 26 Python
Django Celery异步任务队列的实现
Jul 24 Python
python+selenium 点击单选框-radio的实现方法
Sep 03 Python
python Event事件、进程池与线程池、协程解析
Oct 25 Python
Python.append()与Python.expand()用法详解
Dec 18 Python
Python 脚本的三种执行方式小结
Dec 21 Python
python 递归调用返回None的问题及解决方法
Mar 16 Python
Python多线程thread及模块使用实例
Apr 28 Python
python实现移动木板小游戏
Oct 09 Python
python上下文管理器异常问题解决方法
Feb 07 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
WinXP + Apache +PHP5 + MySQL + phpMyAdmin安装全功略
2006/07/09 PHP
关于PHP中操作MySQL数据库的一些要注意的问题
2006/10/09 PHP
windows server 2008/2012安装php iis7 mysql环境搭建教程
2016/06/30 PHP
PHP微信刮刮卡 附微信接口
2016/07/22 PHP
PHP弱类型语言中类型判断操作实例详解
2017/08/10 PHP
jQuery ajax+PHP实现的级联下拉列表框功能示例
2019/02/12 PHP
JavaScript 乱码问题
2009/08/06 Javascript
IE6下出现JavaScript未结束的字符串常量错误的解决方法
2010/11/21 Javascript
javascript设计模式 接口介绍
2012/07/24 Javascript
js网页右下角提示框实例
2014/10/14 Javascript
js构造函数、索引数组和属性的实现方式和使用
2014/11/16 Javascript
基于jQuery Ajax实现上传文件
2016/03/24 Javascript
JavaScript中数组去除重复的三种方法
2016/04/22 Javascript
功能强大的Bootstrap效果展示(二)
2016/08/03 Javascript
js, jQuery实现全选、反选功能
2017/03/08 Javascript
使用JS代码实现俄罗斯方块游戏
2018/08/03 Javascript
JavaScript函数式编程(Functional Programming)组合函数(Composition)用法分析
2019/05/22 Javascript
[50:38]DOTA2-DPC中国联赛 正赛 Phoenix vs CDEC BO3 第二场 3月7日
2021/03/11 DOTA
在Heroku云平台上部署Python的Django框架的教程
2015/04/20 Python
python实现合并两个数组的方法
2015/05/16 Python
Python标准库之Sys模块使用详解
2015/05/23 Python
Python基础篇之初识Python必看攻略
2016/06/23 Python
Python使用numpy实现BP神经网络
2018/03/10 Python
win8下python3.4安装和环境配置图文教程
2018/07/31 Python
Python3实现打印任意宽度的菱形代码
2020/04/12 Python
详解Python IO编程
2020/07/24 Python
使用python-cv2实现视频的分解与合成的示例代码
2020/10/26 Python
matplotlib绘制多子图共享鼠标光标的方法示例
2021/01/08 Python
New Balance天猫官方旗舰店:始于1906年,百年慢跑品牌
2017/11/15 全球购物
澳大利亚儿童鞋在线:The Trybe
2019/07/16 全球购物
法定代表人身份证明书
2014/09/10 职场文书
领导干部查摆“四风”问题自我剖析材料思想汇报
2014/10/05 职场文书
绵山导游词
2015/02/05 职场文书
初中班干部工作总结
2015/08/10 职场文书
Pytest实现setup和teardown的详细使用详解
2021/04/17 Python
Vue组件更新数据v-model不生效的解决
2022/04/02 Vue.js