python使用pandas抽样训练数据中某个类别实例


Posted in Python onFebruary 28, 2020

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 
 
import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 
 
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
 
 
def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape
 
 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
简介Python设计模式中的代理模式与模板方法模式编程
Feb 02 Python
Python实现Youku视频批量下载功能
Mar 14 Python
详解Python开发中如何使用Hook技巧
Nov 01 Python
Go/Python/Erlang编程语言对比分析及示例代码
Apr 23 Python
python实现机器学习之元线性回归
Sep 06 Python
Python调用服务接口的实例
Jan 03 Python
Python实现 版本号对比功能的实例代码
Apr 18 Python
Python函数参数匹配模型通用规则keyword-only参数详解
Jun 10 Python
pybind11和numpy进行交互的方法
Jul 04 Python
Python输出指定字符串的方法
Feb 06 Python
PyCharm如何导入python项目的方法
Feb 06 Python
python基础之错误和异常处理
Oct 24 Python
如何使用repr调试python程序
Feb 28 #Python
Python编程快速上手——Excel到CSV的转换程序案例分析
Feb 28 #Python
python对文件的操作方法汇总
Feb 28 #Python
最新2019Pycharm安装教程 亲测
Feb 28 #Python
Python发送手机动态验证码代码实例
Feb 28 #Python
Python 开发工具PyCharm安装教程图文详解(新手必看)
Feb 28 #Python
Python3使用xlrd、xlwt处理Excel方法数据
Feb 28 #Python
You might like
PHP版国家代码、缩写查询函数代码
2011/08/14 PHP
推荐一款MAC OS X 下php集成开发环境mamp
2014/11/08 PHP
使用Thinkphp框架开发移动端接口
2015/08/05 PHP
php curl常用的5个经典例子
2017/01/20 PHP
PHP编程获取音频文件时长的方法【基于getid3类】
2017/04/20 PHP
laravel实现按时间日期进行分组统计方法示例
2019/03/23 PHP
Yii框架响应组件用法实例分析
2019/09/04 PHP
使用 Node.js 做 Function Test实现方法
2013/10/25 Javascript
JS中生成随机数的用法及相关函数
2016/01/09 Javascript
Google 地图API资料整理及详细介绍
2016/08/06 Javascript
jQuery实现文档树效果
2017/02/20 Javascript
jquery设置css样式的多种方法(总结)
2017/02/21 Javascript
详解webpack进阶之loader篇
2017/08/23 Javascript
详解在Vue中使用TypeScript的一些思考(实践)
2018/07/06 Javascript
jQuery控制input只能输入数字和两位小数的方法
2019/05/16 jQuery
js消除图片小游戏代码
2019/12/11 Javascript
比较详细Python正则表达式操作指南(re使用)
2008/09/06 Python
Python中的引用和拷贝浅析
2014/11/22 Python
python同时给两个收件人发送邮件的方法
2015/04/30 Python
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
2016/01/20 Python
举例讲解Python设计模式编程中的访问者与观察者模式
2016/01/26 Python
详解分布式任务队列Celery使用说明
2018/11/29 Python
Python类中方法getitem和getattr详解
2019/08/30 Python
Python3 pandas 操作列表实例详解
2019/09/23 Python
基于python连接oracle导并出数据文件
2020/04/28 Python
Python脚本实现Zabbix多行日志监控过程解析
2020/08/26 Python
python 提高开发效率的5个小技巧
2020/10/19 Python
关于.NET, HTML的五个问题
2012/08/29 面试题
专科毕业生就业推荐信
2013/11/01 职场文书
期末自我鉴定
2014/02/02 职场文书
关于环保的建议书400字
2014/03/12 职场文书
学员自我鉴定
2014/03/19 职场文书
安全保卫工作竞聘材料
2014/08/25 职场文书
警告通知
2015/04/25 职场文书
高中生军训感言
2015/08/01 职场文书
从贫穷到富有,是知识技能和学习力的差别
2019/08/20 职场文书