Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python使用arcpy.mapping模块批量出图
Mar 06 Python
python3.6实现学生信息管理系统
Feb 21 Python
python实现微信机器人: 登录微信、消息接收、自动回复功能
Apr 29 Python
python交易记录链的实现过程详解
Jul 03 Python
python3文件复制、延迟文件复制任务的实现方法
Sep 02 Python
Django模板导入母版继承和自定义返回Html片段过程解析
Sep 18 Python
Python imageio读取视频并进行编解码详解
Dec 10 Python
python字典setdefault方法和get方法使用实例
Dec 25 Python
Python 日期时间datetime 加一天,减一天,加减一小时一分钟,加减一年
Apr 16 Python
Django实现后台上传并显示图片功能
May 29 Python
深入理解Python 多线程
Jun 16 Python
基于Pygame实现简单的贪吃蛇游戏
Dec 06 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
基于python发送邮件的乱码问题的解决办法
2013/04/25 PHP
php调用mysql存储过程实例分析
2014/12/29 PHP
Ubuntu VPS中wordpress网站打开时提示”建立数据库连接错误”的解决办法
2016/11/03 PHP
基于php编程规范(详解)
2017/08/17 PHP
php获取微信共享收货地址的方法
2017/12/21 PHP
php设计模式之单例模式用法经典示例分析
2019/09/20 PHP
jQuery中remove()方法用法实例
2014/12/25 Javascript
JS实现向表格中动态添加行的方法
2015/03/30 Javascript
BootStrap.css 在手机端滑动时右侧出现空白的原因及解决办法
2016/06/07 Javascript
jQuery layui常用方法介绍
2016/07/25 Javascript
javascript判断元素存在和判断元素存在于实时的dom中的方法
2017/01/17 Javascript
js案例之鼠标跟随jquery版(实例讲解)
2017/07/21 jQuery
Auto.js自动收取自己和好友蚂蚁森林能量脚本
2018/06/28 Javascript
JS window对象简单操作完整示例
2020/01/14 Javascript
Node.js Domain 模块实例详解
2020/03/18 Javascript
原生js实现随机点名
2020/07/05 Javascript
vue实现一个矩形标记区域(rectangle marker)的方法
2020/10/28 Javascript
elementUI同一页面展示多个Dialog的实现
2020/11/19 Javascript
Python使用回溯法子集树模板解决迷宫问题示例
2017/09/01 Python
python3爬取各类天气信息
2018/02/24 Python
Python3 导入上级目录中的模块实例
2019/02/16 Python
详解python实现交叉验证法与留出法
2019/07/11 Python
Python解释器以及PyCharm的安装教程图文详解
2020/02/26 Python
Python用来做Web开发的优势有哪些
2020/08/05 Python
matplotlib交互式数据光标实现(mplcursors)
2021/01/13 Python
用CSS3绘制三角形的简单方法
2015/07/17 HTML / CSS
大学毕业生通用自荐信范文
2013/10/31 职场文书
中学实习教师自我鉴定
2013/12/12 职场文书
奶茶专卖店创业计划书
2014/01/18 职场文书
怎样写好创业计划书的内容
2014/02/06 职场文书
党的群众路线教育实践活动宣传方案
2014/02/23 职场文书
2014最新开业庆典策划方案(5篇)
2014/09/15 职场文书
涪陵白鹤梁导游词
2015/02/09 职场文书
英文导游词
2015/02/13 职场文书
感恩节寄语2015
2015/03/24 职场文书
新闻报道稿范文
2015/07/23 职场文书