python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中urllib模块用法实例详解
Nov 19 Python
Linux中安装Python的交互式解释器IPython的教程
Jun 13 Python
Python模拟用户登录验证
Sep 11 Python
Python3实现带附件的定时发送邮件功能
Dec 22 Python
python3+PyQt5+Qt Designer实现堆叠窗口部件
Apr 20 Python
python中计算一个列表中连续相同的元素个数方法
Jun 29 Python
python解压TAR文件至指定文件夹的实例
Jun 10 Python
将keras的h5模型转换为tensorflow的pb模型操作
May 25 Python
python初步实现word2vec操作
Jun 09 Python
Python面向对象特殊属性及方法解析
Sep 16 Python
详解selenium + chromedriver 被反爬的解决方法
Oct 28 Python
pandas按照列的值排序(某一列或者多列)
Dec 13 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
php 数组二分法查找函数代码
2010/02/16 PHP
PHP5中虚函数的实现方法分享
2011/04/20 PHP
ThinkPHP 整合Bootstrap Ajax分页样式
2016/12/23 PHP
js获取IP地址的方法小结
2014/07/01 Javascript
超链接的禁用属性Disabled使用示例
2014/07/31 Javascript
js的回调函数详解
2015/01/05 Javascript
js实现鼠标点击左上角滑动菜单效果代码
2015/09/06 Javascript
移动端jQuery修正Web页面滑动时div问题的两则实例
2016/05/30 Javascript
特殊日期提示功能的实现方法
2016/06/16 Javascript
js实现碰撞检测特效代码分享
2016/10/16 Javascript
从0开始学Vue
2016/10/27 Javascript
jquery.form.js异步提交表单详解
2017/04/25 jQuery
vue-cli+webpack在生成的项目中使用bootstrap实例代码
2017/05/26 Javascript
详解Nodejs get获取远程服务器接口数据
2019/03/26 NodeJs
layui 实现二级弹窗弹出之后 关闭一级弹窗的方法
2019/09/18 Javascript
vue组件开发之slider组件使用详解
2020/08/21 Javascript
Python中GIL的使用详解
2018/10/03 Python
使用Python监视指定目录下文件变更的方法
2018/10/15 Python
python实践项目之监控当前联网状态详情
2019/05/23 Python
基于Python实现下载网易音乐代码实例
2020/08/10 Python
PyCharm安装PyQt5及其工具(Qt Designer、PyUIC、PyRcc)的步骤详解
2020/11/02 Python
鲜为人知的HTML5语音合成功能
2019/05/17 HTML / CSS
程序集与命名空间有什么不同
2014/07/25 面试题
施工人员岗位职责
2013/12/12 职场文书
毕业设计计划书
2014/01/09 职场文书
函授毕业个人自我评价
2014/02/20 职场文书
求职意向书范文
2014/04/01 职场文书
市场营销专业自荐书
2014/06/10 职场文书
化学教育专业自荐信
2014/07/04 职场文书
合伙经营协议书范本
2014/09/13 职场文书
销售员态度差检讨书
2014/10/26 职场文书
2015年初三班主任工作总结
2015/05/21 职场文书
《西门豹》教学反思
2016/02/23 职场文书
倡议书怎么写?
2019/04/11 职场文书
商业计划书如何写?关键问题有哪些?
2019/07/11 职场文书
MySQL索引知识的一些小妙招总结
2021/05/10 MySQL