pandas:get_dummies()与pd.factorize()的用法及区别说明


Posted in Python onMay 21, 2021

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

pandas:get_dummies()与pd.factorize()的用法及区别说明

prefix自定义前缀

pandas:get_dummies()与pd.factorize()的用法及区别说明

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
Dec 04 Python
Python中实现从目录中过滤出指定文件类型的文件
Feb 02 Python
python编写的最短路径算法
Mar 25 Python
python 截取 取出一部分的字符串方法
Mar 01 Python
新手常见6种的python报错及解决方法
Mar 09 Python
python之线程通过信号pyqtSignal刷新ui的方法
Jan 11 Python
tensorflow 实现从checkpoint中获取graph信息
Feb 10 Python
Python 实现向word(docx)中输出
Feb 13 Python
python+selenium+chromedriver实现爬虫示例代码
Apr 10 Python
用gpu训练好的神经网络,用tensorflow-cpu跑出错的原因及解决方案
Mar 03 Python
Pytorch 如何加速Dataloader提升数据读取速度
May 28 Python
pytorch 如何使用batch训练lstm网络
May 28 Python
python spilt()分隔字符串的实现示例
教你用python实现一个无界面的小型图书管理系统
一篇文章带你搞懂Python类的相关知识
Python深度学习之Pytorch初步使用
我对PyTorch dataloader里的shuffle=True的理解
Python快速优雅的批量修改Word文档样式
Django migrate报错的解决方案
You might like
PHP+Ajax检测用户名或邮件注册时是否已经存在实例教程
2014/08/23 PHP
php格式化日期实例分析
2014/11/12 PHP
解读PHP中的垃圾回收机制
2015/08/10 PHP
twig模板常用语句实例小结
2016/02/04 PHP
PHP实现适用于自定义的验证码类
2016/06/15 PHP
浅谈PHP中关于foreach使用引用变量的坑
2016/11/14 PHP
php使用环形链表解决约瑟夫问题完整示例
2018/08/07 PHP
html+css+js实现xp window界面及有关功能
2013/03/26 Javascript
jquery、js操作checkbox全选反选
2014/03/12 Javascript
Javascript实现飞动广告效果的方法
2015/05/25 Javascript
js全选按钮的实现方法
2015/11/17 Javascript
vue之数据交互实例代码
2017/06/20 Javascript
基于ajax和jsonp的原生封装(实例)
2017/10/16 Javascript
详解vue 实例方法和数据
2017/10/23 Javascript
vue左侧菜单,树形图递归实现代码
2018/08/24 Javascript
浅谈Vue.js中如何实现自定义下拉菜单指令
2019/01/06 Javascript
Vue基于iview实现登录密码的显示与隐藏功能
2020/03/06 Javascript
Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互的实例
2020/11/18 Vue.js
微信小程序input抖动问题的修复方法
2021/03/03 Javascript
Python SQLAlchemy基本操作和常用技巧(包含大量实例,非常好)
2014/05/06 Python
Tensorflow 利用tf.contrib.learn建立输入函数的方法
2018/02/08 Python
Python cookbook(数据结构与算法)字典相关计算问题示例
2018/02/18 Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
2019/02/22 Python
Python SELENIUM上传文件或图片实现过程
2019/10/28 Python
关于Flask项目无法使用公网IP访问的解决方式
2019/11/19 Python
python 求定积分和不定积分示例
2019/11/20 Python
Tensorflow tensor 数学运算和逻辑运算方式
2020/06/30 Python
详解Python中的GIL(全局解释器锁)详解及解决GIL的几种方案
2021/01/29 Python
网页布局中CSS样式无效的十个重要原因详解
2017/08/10 HTML / CSS
GANT葡萄牙官方商店:拥有美国运动服传统的生活方式品牌
2018/10/18 全球购物
医疗专业毕业生求职信
2014/08/28 职场文书
夫妻分居协议书范文
2014/11/26 职场文书
2014年乡镇纪委工作总结
2014/12/19 职场文书
小学六年级毕业感言
2015/07/30 职场文书
汽车销售员工作总结
2015/08/12 职场文书
详解Python描述符的工作原理
2021/06/11 Python