Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python不带重复的全排列代码
Aug 13 Python
python文件操作整理汇总
Oct 21 Python
在Python中使用swapCase()方法转换大小写的教程
May 20 Python
探究python中open函数的使用
Mar 01 Python
儿童python练习实例
May 27 Python
从DataFrame中提取出Series或DataFrame对象的方法
Nov 10 Python
Python生成器的使用方法和示例代码
Mar 04 Python
基于Django静态资源部署404的解决方法
Jul 28 Python
python用什么编辑器进行项目开发
Jun 17 Python
keras K.function获取某层的输出操作
Jun 29 Python
python爬不同图片分别保存在不同文件夹中的实现
Apr 02 Python
Python中的 enumerate和zip详情
May 30 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
PHP与MySQL开发中页面出现乱码的一种解决方法
2007/07/29 PHP
关于PHP定时发送服务的解决办法
2017/04/23 PHP
Laravel 解决419错误 -ajax请求错误的问题(CSRF验证)
2019/10/25 PHP
初学JavaScript_03(ExtJs Grid的简单使用)
2008/10/02 Javascript
jQuery+CSS 实现的超Sexy下拉菜单
2010/01/17 Javascript
javascript下4个跨浏览器必备的函数
2010/03/07 Javascript
Javascript异步编程的4种方法让你写出更出色的程序
2013/01/17 Javascript
js拖拽一些常见的思路方法整理
2014/03/19 Javascript
JS计算网页停留时间代码
2014/04/28 Javascript
jquery中each遍历对象和数组示例
2014/08/05 Javascript
ANGULARJS中用NG-BIND指令实现单向绑定的例子
2014/12/08 Javascript
微信小程序 scroll-view组件实现列表页实例代码
2016/12/14 Javascript
vue2.0获取自定义属性的值
2017/03/28 Javascript
vue项目实现记住密码到cookie功能示例(附源码)
2018/01/31 Javascript
为什么使用koa2搭建微信第三方公众平台的原因
2018/05/16 Javascript
jQuery基于闭包实现的显示与隐藏div功能示例
2018/06/09 jQuery
python实现监控linux性能及进程消耗性能的方法
2014/07/25 Python
详解Django解决ajax跨域访问问题
2018/08/24 Python
详解Numpy中的广播原则/机制
2018/09/20 Python
PyQt5实现五子棋游戏(人机对弈)
2020/03/24 Python
python批量读取文件名并写入txt文件中
2020/09/05 Python
Python Web静态服务器非堵塞模式实现方法示例
2019/11/21 Python
Python开发企业微信机器人每天定时发消息实例
2020/03/17 Python
django在开发中取消外键约束的实现
2020/05/20 Python
python语言time库和datetime库基本使用详解
2020/12/25 Python
CSS+jQuery实现的在线答题功能
2015/04/25 HTML / CSS
详解如何将 Canvas 绘制过程转为视频
2021/01/25 HTML / CSS
大学生的网络创业计划书
2013/12/26 职场文书
消防安全员岗位职责
2014/03/10 职场文书
组织鉴定材料
2014/06/02 职场文书
学校运动会广播稿范文
2014/10/02 职场文书
深入开展党的群众路线教育实践活动心得体会
2014/11/05 职场文书
酒店财务经理岗位职责
2015/04/08 职场文书
商场营业员岗位职责
2015/04/14 职场文书
SQL Server 数据库实验课第五周——常用查询条件
2021/04/05 SQL Server
JavaScript圣杯布局与双飞翼布局实现案例详解
2022/08/05 Javascript