python按比例随机切分数据的实现


Posted in Python onJuly 11, 2019

在机器学习或者深度学习中,我们常常碰到一个问题是数据集的切分。比如在一个比赛中,举办方给我们的只是一个带标注的训练集和不带标注的测试集。其中训练集是用于训练,而测试集用于已训练模型上跑出一个结果,然后提交,然后举办方验证结果给出一个分数。但是我们在训练过程中,可能会出现过拟合等问题,会面临着算法和模型的选择,此时,验证集就显得很重要。通常,如果数据量充足,我们会从训练集中划分出一定比例的数据来作为验证集。

每次划分数据集都手动写一个脚本,重复性太高,因此将此简单的脚本放到自己的博客。代码如下:

import random

def split(full_list,shuffle=False,ratio=0.2):
  n_total = len(full_list)
  offset = int(n_total * ratio)
  if n_total==0 or offset<1:
    return [],full_list
  if shuffle:
    random.shuffle(full_list)
  sublist_1 = full_list[:offset]
  sublist_2 = full_list[offset:]
  return sublist_1,sublist_2


if __name__ == "__main__":
  li = range(5)
  sublist_1,sublist_2 = split(li,shuffle=True,ratio=0.2)

  print sublist_1,len(sublist_1)
  print sublist_2,len(sublist_2)

其中,main为测试代码。假如训练集给出的是一个文件,我们先将文件读到列表中,然后再调用split。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python and、or以及and-or语法总结
Apr 14 Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 Python
python用Pygal如何生成漂亮的SVG图像详解
Feb 10 Python
Python之文字转图片方法
May 10 Python
Python Matplotlib库安装与基本作图示例
Jan 09 Python
python提取log文件内容并画出图表
Jul 08 Python
Django model update的多种用法介绍
Mar 28 Python
浅析python内置模块collections
Nov 15 Python
python创建学生成绩管理系统
Nov 22 Python
Python统计时间内的并发数代码实例
Dec 28 Python
不到20行实现Python代码即可制作精美证件照
Apr 24 Python
详解Python流程控制语句
Oct 28 Python
Kali Linux安装ipython2 和 ipython3的方法
Jul 11 #Python
Python循环结构的应用场景详解
Jul 11 #Python
python列表,字典,元组简单用法示例
Jul 11 #Python
python实现数据分析与建模
Jul 11 #Python
新手如何发布Python项目开源包过程详解
Jul 11 #Python
让Python脚本暂停执行的几种方法(小结)
Jul 11 #Python
python在openstreetmap地图上绘制路线图的实现
Jul 11 #Python
You might like
Aster vs Newbee BO3 第二场2.18
2021/03/10 DOTA
jquery 得到当前页面高度和宽度的两个函数
2010/02/21 Javascript
js 判断checkbox是否选中的实现代码
2010/11/23 Javascript
判断JS对象是否拥有某种属性的两种方式
2013/12/02 Javascript
解析img图片没找到onerror事件 Stack overflow at line: 0
2013/12/23 Javascript
JavaScript删除指定子元素代码实例
2015/01/13 Javascript
js实现支持手机滑动切换的轮播图片效果实例
2015/04/29 Javascript
jQuery动画显示和隐藏效果实例演示(附demo源码下载)
2015/12/31 Javascript
jsTree使用记录实例
2016/12/01 Javascript
JS查找数组中重复元素的方法详解
2017/06/14 Javascript
详解webpack分包及异步加载套路
2017/06/29 Javascript
Node.js引入UIBootstrap的方法示例
2018/05/11 Javascript
小程序点击图片实现自动播放视频
2020/05/29 Javascript
python使用urlparse分析网址中域名的方法
2015/04/15 Python
Pthon批量处理将pdb文件生成dssp文件
2015/06/21 Python
Python 遍历子文件和所有子文件夹的代码实例
2016/12/21 Python
python+opencv实现动态物体识别
2018/01/09 Python
python测试mysql写入性能完整实例
2018/01/18 Python
Python快速转换numpy数组中Nan和Inf的方法实例说明
2019/02/21 Python
python 实现返回一个列表中出现次数最多的元素方法
2019/06/11 Python
Python基于pygame实现单机版五子棋对战
2019/12/26 Python
DC Shoes官网:美国滑板鞋和服饰品牌
2017/09/03 全球购物
Omio中国:全欧洲低价大巴、火车和航班搜索和比价
2018/08/09 全球购物
Simons官方网站:加拿大时尚零售商
2020/02/20 全球购物
留学自荐信
2013/10/10 职场文书
医学生自荐信范文
2013/12/03 职场文书
高一新生军训感言
2014/03/02 职场文书
优秀的导游求职信范文
2014/04/06 职场文书
超市创业计划书
2014/04/24 职场文书
幼儿园教师演讲稿
2014/05/06 职场文书
市级优秀班主任事迹材料
2014/05/13 职场文书
党员个人对照检查材料思想汇报
2014/09/16 职场文书
2014年银行客户经理工作总结
2014/11/12 职场文书
2014年音乐教师工作总结
2014/12/03 职场文书
收银员岗位职责范本
2015/04/07 职场文书
详解Redis的三种常用的缓存读写策略步骤
2022/05/06 Redis