Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python基于matplotlib实现绘制三维图形功能示例
Jan 18 Python
python删除本地夹里重复文件的方法
Nov 19 Python
pandas DataFrame实现几列数据合并成为新的一列方法
Jun 08 Python
5分钟 Pipenv 上手指南
Dec 20 Python
python 实现得到当前时间偏移day天后的日期方法
Dec 31 Python
Python3中编码与解码之Unicode与bytes的讲解
Feb 28 Python
Python 用turtle实现用正方形画圆的例子
Nov 21 Python
python3连接mysql获取ansible动态inventory脚本
Jan 19 Python
Selenium自动化测试工具使用方法汇总
Jun 12 Python
pytorch快速搭建神经网络_Sequential操作
Jun 17 Python
Python configparser模块封装及构造配置文件
Aug 07 Python
Python实现王者荣耀自动刷金币的完整步骤
Jan 22 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
PHP新手上路(三)
2006/10/09 PHP
linux下使用ThinkPHP需要注意大小写导致的问题
2011/08/02 PHP
php牛逼的面试题分享
2013/01/18 PHP
php 购物车完整实现代码
2014/06/05 PHP
PHP 正则表达式小结
2015/02/12 PHP
php实现在新浪云中使用imagick生成缩略图并上传的方法
2016/09/26 PHP
PHP基于反射机制实现插件的可插拔设计详解
2016/11/10 PHP
Yii2实现UploadedFile上传文件示例
2017/02/15 PHP
Jquery幻灯片特效代码分享--打开页面随机选择切换方式(3)
2015/08/15 Javascript
javascript+css3 实现动态按钮菜单特效
2016/02/06 Javascript
JS完成画圆圈的小球
2017/03/07 Javascript
详解打造 Vue.js 可复用组件
2017/03/24 Javascript
nodejs获取微信小程序带参数二维码实现代码
2017/04/12 NodeJs
基于JavaScript实现多级菜单效果
2017/07/25 Javascript
Vue Router的懒加载路径的解决方法
2018/06/21 Javascript
JS实现字符串翻转的方法分析
2018/08/31 Javascript
默认浏览器设置及vue自动打开页面的方法
2018/09/21 Javascript
vue+iview 实现可编辑表格的示例代码
2018/10/31 Javascript
JavaScript中的null和undefined用法解析
2019/09/30 Javascript
TypeScript魔法堂之枚举的超实用手册
2020/10/29 Javascript
Vue中使用wangeditor富文本编辑的问题
2021/02/07 Vue.js
详解Python中的__init__和__new__
2014/03/12 Python
浅析Python中的序列化存储的方法
2015/04/28 Python
Python实现删除当前目录下除当前脚本以外的文件和文件夹实例
2015/07/27 Python
Python中的连接符(+、+=)示例详解
2017/01/13 Python
Python数据结构与算法之图的基本实现及迭代器实例详解
2017/12/12 Python
Django实现从数据库中获取到的数据转换为dict
2020/03/27 Python
python 下载文件的几种方法汇总
2021/01/06 Python
Expedia马来西亚旅游网站:廉价酒店,度假村和航班预订
2016/07/26 全球购物
打架检讨书400字
2014/01/17 职场文书
诉讼财产保全担保书
2014/05/20 职场文书
商场客服专员岗位职责
2014/06/13 职场文书
三八妇女节超市活动方案
2014/08/18 职场文书
2014年政教处工作总结
2014/12/20 职场文书
党章学习心得体会2016
2016/01/14 职场文书
Python实现为PDF去除水印的示例代码
2022/04/03 Python