python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础知识小结之集合
Nov 25 Python
Python+Turtle动态绘制一棵树实例分享
Jan 16 Python
python链接oracle数据库以及数据库的增删改查实例
Jan 30 Python
对python 多线程中的守护线程与join的用法详解
Feb 18 Python
Python 使用list和tuple+条件判断详解
Jul 30 Python
Python判断字符串是否xx开始或结尾的示例
Aug 08 Python
已安装tensorflow-gpu,但keras无法使用GPU加速的解决
Feb 07 Python
Django 用户登陆访问限制实例 @login_required
May 13 Python
简单的Python人脸识别系统
Jul 14 Python
Python接收手机短信的代码整理
Aug 02 Python
python正则表达式re.match()匹配多个字符方法的实现
Jan 27 Python
python3实现Dijkstra算法最短路径的实现
May 12 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
收藏的一个php小偷的核心程序
2007/04/09 PHP
discuz目录文件资料汇总
2014/12/30 PHP
php返回当前日期或者指定日期是周几
2015/05/21 PHP
PHP使用PHPexcel导入导出数据的方法
2015/11/14 PHP
JavaScript中使用构造器创建对象无需new的情况说明
2012/03/01 Javascript
JavaScript 判断用户输入的邮箱及手机格式是否正确
2013/12/08 Javascript
用jquery修复在iframe下的页面锚点失效问题
2014/08/22 Javascript
Jquery Ajax xmlhttp请求成功问题
2015/02/04 Javascript
谈谈impress.js初步理解
2015/09/09 Javascript
jQuery-1.9.1源码分析系列(十)事件系统之事件包装
2015/11/20 Javascript
详解Node.js包的工程目录与NPM包管理器的使用
2016/02/16 Javascript
用自定义图片代替原生checkbox实现全选,删除以及提交的方法
2016/10/18 Javascript
jQuery中extend函数简单用法示例
2017/10/11 jQuery
Angularjs按需查询实例代码
2017/10/30 Javascript
vue+springboot前后端分离实现单点登录跨域问题解决方法
2018/01/30 Javascript
layui 数据表格+分页+搜索+checkbox+缓存选中项数据的方法
2019/09/21 Javascript
Vue中强制组件重新渲染的正确方法
2021/01/03 Vue.js
[02:06]DOTA2肉山黑名单魔法终结者 敌法师中文配音鉴赏
2013/06/17 DOTA
[01:32]2016国际邀请赛中国区预选赛IG战队首日赛后采访
2016/06/27 DOTA
Phantomjs抓取渲染JS后的网页(Python代码)
2016/05/13 Python
Python编程之Re模块下的函数介绍
2017/10/28 Python
Python使用try except处理程序异常的三种常用方法分析
2018/09/05 Python
ubuntu16.04制作vim和python3的开发环境
2018/09/23 Python
使用python 写一个静态服务(实战)
2019/06/28 Python
Python3基于print打印带颜色字符串
2020/07/06 Python
澳大利亚香水在线:Price Rite Mart
2017/12/28 全球购物
好莱坞百老汇御用王牌美妆:Koh Gen Do 江原道
2018/04/03 全球购物
法国女性内衣购物网站:Glamuse
2019/05/13 全球购物
德国户外装备、登山运动和攀岩商店:tapir store
2020/02/12 全球购物
新郎新娘婚礼答谢词
2014/01/11 职场文书
《动手做做看》教学反思
2014/04/09 职场文书
小学阳光体育活动总结
2014/07/05 职场文书
乡镇四风对照检查材料
2014/08/31 职场文书
2014年军人思想汇报范文
2014/10/12 职场文书
群众路线个人剖析材料及整改措施
2014/11/04 职场文书
python爬虫请求库httpx和parsel解析库的使用测评
2021/05/10 Python