Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python3实现连接SQLite数据库的方法
Aug 23 Python
Python实现抓取页面上链接的简单爬虫分享
Jan 21 Python
python中函数总结之装饰器闭包详解
Jun 12 Python
Python实现中文数字转换为阿拉伯数字的方法示例
May 26 Python
python的变量与赋值详细分析
Nov 08 Python
Python实现ping指定IP的示例
Jun 04 Python
Python爬虫实现使用beautifulSoup4爬取名言网功能案例
Sep 15 Python
Python阶乘求和的代码详解
Feb 14 Python
利用matplotlib为图片上添加触发事件进行交互
Apr 23 Python
python代码实现将列表中重复元素之间的内容全部滤除
May 22 Python
Python Selenium操作Cookie的实例方法
Feb 28 Python
一文搞懂python异常处理、模块与包
Jun 26 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
php生成txt文件标题及内容的方法
2014/01/16 PHP
PHP简单读取PDF页数的实现方法
2016/07/21 PHP
PHP未登录自动跳转到登录页面
2016/12/21 PHP
PHPMailer使用QQ邮箱实现邮件发送功能
2017/08/18 PHP
Yii2框架实现利用mpdf创建pdf文件功能示例
2019/02/08 PHP
Chosen 基于jquery的选择框插件使用方法
2012/05/30 Javascript
div当滚动到页面顶部的时候固定在顶部实例代码
2013/05/27 Javascript
js实现页面转发功能示例代码
2013/08/05 Javascript
jQuery实现的五子棋游戏实例
2015/06/13 Javascript
使用javascript将时间转换成今天,昨天,前天等格式
2015/06/25 Javascript
jquery插件格式实例分析
2016/06/16 Javascript
EasyUI加载完Html内容样式渲染完成后显示
2016/07/25 Javascript
详解AngularJS中ng-src指令的使用
2016/09/07 Javascript
基于JavaScript实现熔岩灯效果导航菜单
2017/01/04 Javascript
vue 2.0组件与v-model详解
2017/03/27 Javascript
解决angular双向绑定无效果,ng-model不能正常显示的问题
2018/10/02 Javascript
JS实现的A*寻路算法详解
2018/12/14 Javascript
js获取form表单中name属性的值
2019/02/27 Javascript
JavaScript数组排序的六种常见算法总结
2020/08/18 Javascript
通过实例了解Render Props回调地狱解决方案
2020/11/04 Javascript
跟老齐学Python之玩转字符串(2)更新篇
2014/09/28 Python
举例讲解Python编程中对线程锁的使用
2016/07/12 Python
Python编程实现正则删除命令功能
2017/08/30 Python
Python实现桶排序与快速排序算法结合应用示例
2017/11/22 Python
python实现写数字文件名的递增保存文件方法
2018/10/25 Python
Python图像滤波处理操作示例【基于ImageFilter类】
2019/01/03 Python
Python PyCharm如何进行断点调试
2019/07/05 Python
PyCharm+Miniconda3安装配置教程详解
2021/02/16 Python
《影子》教学反思
2014/02/21 职场文书
团支部推优材料
2014/05/21 职场文书
2014年企业工会工作总结
2014/11/12 职场文书
新教师个人工作总结
2015/02/06 职场文书
2016年社区文体活动总结
2016/04/06 职场文书
Python Django搭建文件下载服务器的实现
2021/05/10 Python
Python+Matplotlib图像上指定坐标的位置添加文本标签与注释
2022/04/11 Python
python画条形图的具体代码
2022/04/20 Python