pandas使用get_dummies进行one-hot编码的方法


Posted in Python onJuly 10, 2018

离散特征的编码分为两种情况:

1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码

2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

使用pandas可以很方便的对离散型特征进行one-hot编码

import pandas as pd
df = pd.DataFrame([
   ['green', 'M', 10.1, 'class1'], 
   ['red', 'L', 13.5, 'class2'], 
   ['blue', 'XL', 15.3, 'class1']])
 
df.columns = ['color', 'size', 'prize', 'class label']
 
size_mapping = {
   'XL': 3,
   'L': 2,
   'M': 1}
df['size'] = df['size'].map(size_mapping)
 
class_mapping = {label:idx for idx,label in enumerate(set(df['class label']))}
df['class label'] = df['class label'].map(class_mapping)

说明:对于有大小意义的离散特征,直接使用映射就可以了,{'XL':3,'L':2,'M':1}

pandas使用get_dummies进行one-hot编码的方法

Using the get_dummies will create a new column for every unique string in a certain column:使用get_dummies进行one-hot编码
pd.get_dummies(df)

pandas使用get_dummies进行one-hot编码的方法

以上这篇pandas使用get_dummies进行one-hot编码的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获得两个数组交集、并集、差集的方法
Mar 27 Python
浅谈Python2.6和Python3.0中八进制数字表示的区别
Apr 28 Python
使用paramiko远程执行命令、下发文件的实例
Oct 01 Python
Python入门之三角函数sin()函数实例详解
Nov 08 Python
python3中获取文件当前绝对路径的两种方法
Apr 26 Python
Python使用贪婪算法解决问题
Oct 22 Python
Python StringIO如何在内存中读写str
Jan 07 Python
宝塔面板成功部署Django项目流程(图文)
Jun 22 Python
Python3如何使用range函数替代xrange函数
Oct 05 Python
pytho matplotlib工具栏源码探析一之禁用工具栏、默认工具栏和工具栏管理器三种模式的差异
Feb 25 Python
详解运行Python的神器Jupyter Notebook
Jun 03 Python
Python+腾讯云服务器实现每日自动健康打卡
Dec 06 Python
详解python中的装饰器
Jul 10 #Python
pandas值替换方法
Jul 10 #Python
Pandas 数据处理,数据清洗详解
Jul 10 #Python
python+pandas+时间、日期以及时间序列处理方法
Jul 10 #Python
使用Python的Dataframe取两列时间值相差一年的所有行方法
Jul 10 #Python
Python Dataframe 指定多列去重、求差集的方法
Jul 10 #Python
Python实现对文件进行单词划分并去重排序操作示例
Jul 10 #Python
You might like
PHP多线程类及用法实例
2014/12/03 PHP
PHPStrom中实用的功能和快捷键大全
2015/09/23 PHP
PHP实现对文件锁进行加锁、解锁操作的方法
2017/07/04 PHP
php实现与python进行socket通信的方法示例
2017/08/30 PHP
javascript之水平横向滚动歌词同步的应用
2007/05/07 Javascript
“不能执行已释放的Script代码”错误的原因及解决办法
2007/09/09 Javascript
ExtJS Grid使用SimpleStore、多选框的方法
2009/11/20 Javascript
基于Jquery的仿照flash放大图片效果代码
2011/03/16 Javascript
js实现拖拽 闭包函数详细介绍
2012/11/25 Javascript
jquery遍历之parent()和parents()的区别及parentsUntil()方法详解
2013/12/02 Javascript
jquery.ajax的url中传递中文乱码问题的解决方法
2014/02/07 Javascript
Javascript排序算法之合并排序(归并排序)的2个例子
2014/04/04 Javascript
jQuery中ajax的load()方法用法实例
2014/12/26 Javascript
JavaScript中Date对象的常用方法示例
2015/10/24 Javascript
JavaScript数据结构与算法之集合(Set)
2016/01/29 Javascript
详解vue父子模版嵌套案例
2017/03/04 Javascript
Three.js利用dat.GUI如何简化试验流程详解
2017/09/26 Javascript
小程序实现横向滑动日历效果
2019/10/21 Javascript
关于Python中异常(Exception)的汇总
2017/01/18 Python
开源Web应用框架Django图文教程
2017/03/09 Python
对Python中type打开文件的方式介绍
2018/04/28 Python
django页面跳转问题及注意事项
2019/07/18 Python
详解Python3.8+PyQt5+pyqt5-tools+Pycharm配置详细教程
2020/11/02 Python
美国演唱会和体育门票购买网站:Ticketnetwork
2018/10/19 全球购物
Bibloo匈牙利:女装、男装、童装及鞋子和配饰
2019/04/14 全球购物
英国鲜花递送:Blossoming Gifts
2020/07/10 全球购物
北京RT科技有限公司.net工程师面试题
2013/02/15 面试题
3个CCIE对一个工程师的面试题
2012/05/06 面试题
大四学生思想汇报
2014/01/13 职场文书
项目考察欢迎辞
2014/01/17 职场文书
拉拉队口号
2014/06/16 职场文书
安全目标责任书
2014/07/22 职场文书
社区娱乐活动方案
2014/08/21 职场文书
地道战观后感400字
2015/06/04 职场文书
2016年大学生党员承诺书
2016/03/24 职场文书
MySQL之高可用集群部署及故障切换实现
2021/04/22 MySQL