python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分析Python编程时利用wxPython来支持多线程的方法
Apr 07 Python
分析Python的Django框架的运行方式及处理流程
Apr 08 Python
基于Python实现文件大小输出
Jan 11 Python
Python3中使用PyMongo的方法详解
Jul 28 Python
PyCharm设置护眼背景色的方法
Oct 29 Python
python tkinter窗口最大化的实现
Jul 15 Python
Python 获取项目根路径的代码
Sep 27 Python
Python函数的定义方式与函数参数问题实例分析
Dec 26 Python
Python如何用filter函数筛选数据
Mar 05 Python
Python实现http接口自动化测试的示例代码
Oct 09 Python
BeautifulSoup中find和find_all的使用详解
Dec 07 Python
如何在Python中创建二叉树
Mar 30 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
收音机的保养
2021/03/01 无线电
php采集速度探究总结(原创)
2008/04/18 PHP
PHP Smarty生成EXCEL文档的代码
2008/08/23 PHP
php 随机生成10位字符代码
2009/03/26 PHP
PHP二维数组的去重问题解析
2011/07/17 PHP
解析PHP生成静态html文件的三种方法
2013/06/18 PHP
制作安全性高的PHP网站的几个实用要点
2014/12/30 PHP
php两种无限分类方法实例
2015/04/21 PHP
使用jquery局部刷新(jquery.load)从数据库取出数据
2014/01/22 Javascript
ext combobox动态加载数据库数据(附前后台)
2014/06/17 Javascript
jQuery中add()方法用法实例
2015/01/08 Javascript
JavaScript生成.xls文件的代码
2016/12/22 Javascript
百度地图API之百度地图退拽标记点获取经纬度的实现代码
2017/01/12 Javascript
JS+html5制作简单音乐播放器
2020/09/13 Javascript
微信小程序 实现点击添加移除class
2017/06/12 Javascript
基于JS实现移动端左滑删除功能
2017/07/28 Javascript
使用Fullpage插件快速开发整屏翻页的页面
2017/09/13 Javascript
nodeJs实现基于连接池连接mysql的方法示例
2018/02/10 NodeJs
原生js实现移动小球(碰撞检测)
2020/12/17 Javascript
[01:00:44]DOTA2上海特级锦标赛主赛事日 - 3 败者组第三轮#1COL VS Alliance第三局
2016/03/04 DOTA
Python实现 多进程导入CSV数据到 MySQL
2017/02/26 Python
解决python读取几千万行的大表内存问题
2018/06/26 Python
pandas读取csv文件,分隔符参数sep的实例
2018/12/12 Python
python时间序列按频率生成日期的方法
2019/05/14 Python
对django views中 request, response的常用操作详解
2019/07/17 Python
pandas将多个dataframe以多个sheet的形式保存到一个excel文件中
2019/10/10 Python
python虚拟环境模块venv使用及示例
2020/03/04 Python
通过python调用adb命令对App进行性能测试方式
2020/04/23 Python
python3+selenium获取页面加载的所有静态资源文件链接操作
2020/05/04 Python
keras中模型训练class_weight,sample_weight区别说明
2020/05/23 Python
Python函数参数定义及传递方式解析
2020/06/10 Python
python3环境搭建过程(利用Anaconda+pycharm)完整版
2020/08/19 Python
软件售后服务承诺书
2014/05/21 职场文书
《社戏》教学反思
2016/02/22 职场文书
python编写五子棋游戏
2021/05/25 Python
详解MongoDB的条件查询和排序
2021/06/23 MongoDB