Python----数据预处理代码实例


Posted in Python onMarch 20, 2019

本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下

1.导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.导入数据集

dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件
#创建一个包含所有自变量的矩阵,及因变量的向量
#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

3.缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)
#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重
#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

6.特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

7.数据预处理模板

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上所述是小编给大家介绍的Python数据预处理详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python实现比较两个列表(list)范围
Jun 12 Python
在Django的视图中使用form对象的方法
Jul 18 Python
Python使用设计模式中的责任链模式与迭代器模式的示例
Mar 02 Python
详解Django解决ajax跨域访问问题
Aug 24 Python
Python实现拷贝/删除文件夹的方法详解
Aug 29 Python
Python3.4 splinter(模拟填写表单)使用方法
Oct 13 Python
python实现爬取百度图片的方法示例
Jul 06 Python
Python reversed函数及使用方法解析
Mar 17 Python
Python内建序列通用操作6种实现方法
Mar 26 Python
Python 实现一行输入多个数字(用空格隔开)
Apr 29 Python
python的flask框架难学吗
Jul 31 Python
Pandas实现批量拆分与合并Excel的示例代码
May 30 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 #Python
python实现维吉尼亚算法
Mar 20 #Python
python多线程抽象编程模型详解
Mar 20 #Python
基于python生成器封装的协程类
Mar 20 #Python
python实现栅栏加解密 支持密钥加密
Mar 20 #Python
python实现Virginia无密钥解密
Mar 20 #Python
python实现维吉尼亚加密法
Mar 20 #Python
You might like
BBS(php & mysql)完整版(八)
2006/10/09 PHP
如何使用PHP中的字符串函数
2006/11/24 PHP
Php Mssql操作简单封装支持存储过程
2009/12/11 PHP
PHP中最容易忘记的一些知识点总结
2013/04/28 PHP
PHP文件生成的图片无法使用CDN缓存的解决方法
2015/06/20 PHP
PHP基于双向链表与排序操作实现的会员排名功能示例
2017/12/26 PHP
PHP中Session ID的实现原理实例分析
2019/08/17 PHP
javascript setAttribute, getAttribute 在不同浏览器上的不同表现
2010/08/05 Javascript
javascript开发技术大全-第1章javascript概述
2011/07/03 Javascript
getElementByIdx_x js自定义getElementById函数
2012/01/24 Javascript
js hover 定时器(实例代码)
2013/11/12 Javascript
jquery图片轮播插件仿支付宝2013版全屏图片幻灯片
2014/04/03 Javascript
js如何改变文章的字体大小
2016/01/08 Javascript
JavaScript获取当前url根目录(路径)
2016/06/17 Javascript
使用jquery datatable和bootsrap创建表格实例代码
2017/03/17 Javascript
React中ES5与ES6写法的区别总结
2017/04/21 Javascript
Vue中保存用户登录状态实例代码
2017/06/07 Javascript
jQuery实现返回顶部按钮和scroll滚动功能[带动画效果]
2017/07/05 jQuery
JSON创建键值对(key是中文或者数字)方式详解
2017/08/24 Javascript
vue-cli项目根据线上环境分别打出测试包和生产包
2018/05/23 Javascript
使用vue-router与v-if实现tab切换遇到的问题及解决方法
2018/09/07 Javascript
Vue 引入AMap高德地图的实现代码
2019/04/29 Javascript
如何在vue 中引入使用jquery
2020/11/10 jQuery
Python中unittest用法实例
2014/09/25 Python
python语言元素知识点详解
2019/05/15 Python
使用tensorflow DataSet实现高效加载变长文本输入
2020/01/20 Python
Django 项目通过加载不同env文件来区分不同环境
2020/02/17 Python
Python代码执行时间测量模块timeit用法解析
2020/07/01 Python
Django xadmin安装及使用详解
2020/10/26 Python
Bergfreunde丹麦:登山装备网上零售商
2017/02/26 全球购物
英国领先的独立时装店:Van Mildert
2019/10/28 全球购物
俄罗斯运动、健康和美容产品在线商店:Lactomin.ru
2020/07/23 全球购物
商业项目策划方案
2014/06/05 职场文书
运动会200米广播稿
2015/08/19 职场文书
MySQL查询学习之基础查询操作
2021/05/08 MySQL
python自动计算图像数据集的RGB均值
2021/06/18 Python