Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python实现分析apache和nginx日志文件并输出访客ip列表的方法
Apr 04 Python
python函数中return后的语句一定不会执行吗?
Jul 06 Python
Python中单例模式总结
Feb 20 Python
python实现列表中由数值查到索引的方法
Jun 27 Python
Python 给某个文件名添加时间戳的方法
Oct 16 Python
Python逐行读取文件中内容的简单方法
Feb 26 Python
python opencv 二值化 计算白色像素点的实例
Jul 03 Python
树莓派使用python-librtmp实现rtmp推流h264的方法
Jul 22 Python
阿里云ECS服务器部署django的方法
Aug 29 Python
浅谈Python中的继承
Jun 19 Python
装上这 14 个插件后,PyCharm 真的是无敌的存在
Jan 11 Python
Python使用protobuf序列化和反序列化的实现
May 19 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
PHP数据流应用的一个简单实例
2012/09/14 PHP
PHP合并两个或多个数组的方法
2019/01/20 PHP
laravel 字段格式化 modle 字段类型转换方法
2019/09/30 PHP
JavaScript中的Window窗口对象
2008/01/16 Javascript
JavaScript 三种创建对象的方法
2009/10/16 Javascript
javascript 运算数的求值顺序
2011/08/23 Javascript
将字符串中由空格隔开的每个单词首字母大写
2014/04/06 Javascript
jQuery+ajax实现动态执行脚本的方法
2015/01/27 Javascript
jQuery对象初始化的传参方式
2015/02/26 Javascript
JavaScript中的关联数组问题
2015/03/04 Javascript
关于定制FileField中的上传文件名称问题
2017/08/22 Javascript
微信页面弹出键盘后iframe内容变空白的解决方案
2017/09/20 Javascript
ES6使用Set数据结构实现数组的交集、并集、差集功能示例
2017/10/31 Javascript
JS中offset和匀速动画详解
2018/02/06 Javascript
JS判断两个数组或对象是否相同的方法示例
2019/02/28 Javascript
[01:37]全新的一集《真视界》——TI7总决赛
2017/09/21 DOTA
[56:46]2018DOTA2亚洲邀请赛 3.31 小组赛 B组 VP vs Effect
2018/04/01 DOTA
[02:12]2019完美世界全国高校联赛(春季赛)报名开启
2019/03/01 DOTA
Python实现抓取城市的PM2.5浓度和排名
2015/03/19 Python
python实现汉诺塔方法汇总
2016/07/25 Python
python实现决策树
2017/12/21 Python
Python处理菜单消息操作示例【基于win32ui模块】
2018/05/09 Python
python3.5绘制随机漫步图
2018/08/27 Python
Python实战购物车项目的实现参考
2019/02/20 Python
Pandas中resample方法详解
2019/07/02 Python
django使用admin站点上传图片的实例
2019/07/28 Python
html5中canvas图表实现柱状图的示例
2017/11/13 HTML / CSS
梅西百货官网:Macy’s
2020/08/04 全球购物
金融专业推荐信
2013/11/14 职场文书
应届专科生个人的自我评价
2014/01/05 职场文书
偷看我的初中毕业鉴定
2014/01/29 职场文书
模具专业求职信
2014/06/26 职场文书
中秋节国旗下演讲稿
2014/09/05 职场文书
毕业横幅标语
2014/10/08 职场文书
如何书写授权委托书?
2019/06/25 职场文书
Python基础之pandas数据合并
2021/04/27 Python