python使用pandas抽样训练数据中某个类别实例


Posted in Python onFebruary 28, 2020

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 
 
import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 
 
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
 
 
def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape
 
 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python处理中文编码和判断编码示例
Feb 26 Python
python实现多线程暴力破解登陆路由器功能代码分享
Jan 04 Python
Python中的生成器和yield详细介绍
Jan 09 Python
Python随机生成彩票号码的方法
Mar 05 Python
Python实现视频下载功能
Mar 14 Python
python线程中同步锁详解
Apr 27 Python
python实现字符串加密成纯数字
Mar 19 Python
Python Matplotlib 基于networkx画关系网络图
Jul 10 Python
Python通过Schema实现数据验证方式
Nov 12 Python
Python中读取文件名中的数字的实例详解
Dec 25 Python
在Django中使用MQTT的方法
May 10 Python
openstack中的rpc远程调用的方法
Jul 09 Python
如何使用repr调试python程序
Feb 28 #Python
Python编程快速上手——Excel到CSV的转换程序案例分析
Feb 28 #Python
python对文件的操作方法汇总
Feb 28 #Python
最新2019Pycharm安装教程 亲测
Feb 28 #Python
Python发送手机动态验证码代码实例
Feb 28 #Python
Python 开发工具PyCharm安装教程图文详解(新手必看)
Feb 28 #Python
Python3使用xlrd、xlwt处理Excel方法数据
Feb 28 #Python
You might like
利用PHP制作简单的内容采集器的代码
2007/11/28 PHP
phpExcel导出大量数据出现内存溢出错误的解决方法
2013/02/28 PHP
php中print(),print_r(),echo()的区别详解
2014/12/01 PHP
thinkphp3.2中Lite文件替换框架入口文件或应用入口文件的方法
2015/05/21 PHP
示例详解Laravel的注册重构
2016/08/14 PHP
PHP中使用OpenSSL生成证书及加密解密
2017/02/05 PHP
javascript之函数直接量(function(){})()
2007/06/29 Javascript
html数组字符串拼接的最快方法
2009/09/16 Javascript
Express.JS使用详解
2014/07/17 Javascript
jQuery之Deferred对象详解
2014/09/04 Javascript
详解JavaScript中jQuery和Ajax以及JSONP的联合使用
2015/08/13 Javascript
原生JS封装Ajax插件(同域、jsonp跨域)
2016/05/03 Javascript
JS取模、取商及取整运算方法示例
2016/10/13 Javascript
基于JavaScript定位当前的地理位置
2017/04/11 Javascript
js数据类型检测总结
2018/08/05 Javascript
基于Vue 2.0 监听文本框内容变化及ref的使用说明介绍
2018/08/24 Javascript
详解vue项目中调用百度地图API使用方法
2019/04/25 Javascript
Python高级应用实例对比:高效计算大文件中的最长行的长度
2014/06/08 Python
在Python中操作字符串之rstrip()方法的使用
2015/05/19 Python
详解Python设计模式编程中观察者模式与策略模式的运用
2016/03/02 Python
Python中字典的浅拷贝与深拷贝用法实例分析
2018/01/02 Python
Python获取航线信息并且制作成图的讲解
2019/01/03 Python
详解如何减少python内存的消耗
2019/08/09 Python
python多进程并行代码实例
2019/09/30 Python
浅析Python中字符串的intern机制
2020/10/03 Python
Made in Design德国:设计师家具、灯具和装饰
2019/10/31 全球购物
文明城市创建标语
2014/06/16 职场文书
预备党员学习十八届三中全会精神思想汇报
2014/09/13 职场文书
恰同学少年观后感
2015/06/08 职场文书
2016年大学迎新晚会工作总结
2015/10/15 职场文书
python 解决微分方程的操作(数值解法)
2021/05/26 Python
pytorch finetuning 自己的图片进行训练操作
2021/06/05 Python
JavaScript如何优化逻辑判断代码详解
2021/06/08 Javascript
Java并发编程之详解CyclicBarrier线程同步
2021/06/23 Java/Android
如何用vue实现网页截图你知道吗
2021/11/17 Vue.js
Window server 2012 R2 AD域的组策略相关设置
2022/04/28 Servers