pandas:get_dummies()与pd.factorize()的用法及区别说明


Posted in Python onMay 21, 2021

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

pandas:get_dummies()与pd.factorize()的用法及区别说明

prefix自定义前缀

pandas:get_dummies()与pd.factorize()的用法及区别说明

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础教程之对象和类的实际运用
Aug 29 Python
浅谈python抛出异常、自定义异常, 传递异常
Jun 20 Python
python获取文件路径、文件名、后缀名的实例
Apr 23 Python
Flask之flask-script模块使用
Jul 26 Python
python生成器/yield协程/gevent写简单的图片下载器功能示例
Oct 28 Python
用python爬取历史天气数据的方法示例
Dec 30 Python
OpenCV哈里斯(Harris)角点检测的实现
Jan 15 Python
Django中modelform组件实例用法总结
Feb 10 Python
python3.7调试的实例方法
Jul 21 Python
Windows下Sqlmap环境安装教程详解
Aug 04 Python
Python Selenium自动化获取页面信息的方法
Aug 31 Python
关于Numpy之repeat、tile的用法总结
Jun 02 Python
python spilt()分隔字符串的实现示例
教你用python实现一个无界面的小型图书管理系统
一篇文章带你搞懂Python类的相关知识
Python深度学习之Pytorch初步使用
我对PyTorch dataloader里的shuffle=True的理解
Python快速优雅的批量修改Word文档样式
Django migrate报错的解决方案
You might like
压力如何影响浓缩咖啡品质
2021/03/03 咖啡文化
php断点续传之文件分割合并详解
2016/12/13 PHP
PHP操作MySQL中BLOB字段的方法示例【存储文本与图片】
2017/09/15 PHP
wordpress自定义标签云与随机获取标签的方法详解
2019/03/22 PHP
jQuery学习笔记之jQuery的事件
2010/12/22 Javascript
js获取select标签的值且兼容IE与firefox
2013/12/30 Javascript
jQuery学习总结之jQuery事件
2014/06/30 Javascript
js读取json的两种常用方法示例介绍
2014/10/19 Javascript
跟我学习javascript的函数调用和构造函数调用
2015/11/16 Javascript
jQuery自定义图片上传插件实例代码
2017/04/04 jQuery
vue v-on监听事件详解
2017/05/17 Javascript
ajax+node+request爬取网络图片的实例(宅男福利)
2017/08/28 Javascript
浅谈vue+webpack项目调试方法步骤
2017/09/11 Javascript
JS设计模式之观察者模式实现实时改变页面中金额数的方法
2018/02/05 Javascript
jQuery实现的上传图片本地预览效果简单示例
2018/03/29 jQuery
Python中map,reduce,filter和sorted函数的使用方法
2015/08/17 Python
Python错误: SyntaxError: Non-ASCII character解决办法
2017/06/08 Python
Python 数据处理库 pandas进阶教程
2018/04/21 Python
Python简单实现网页内容抓取功能示例
2018/06/07 Python
Python实现的tcp端口检测操作示例
2018/07/24 Python
Windows下Anaconda2安装NLTK教程
2018/09/19 Python
10招!看骨灰级Pythoner玩转Python的方法
2019/04/15 Python
Python 中list ,set,dict的大规模查找效率对比详解
2019/10/11 Python
使用sklearn对多分类的每个类别进行指标评价操作
2020/06/11 Python
Python中读取文件名中的数字的实例详解
2020/12/25 Python
大学毕业感言100字
2014/02/03 职场文书
《孔子拜师》教学反思
2014/02/24 职场文书
厨师长岗位职责
2014/03/02 职场文书
《小猪家的桃花树》教学反思
2014/04/11 职场文书
文秘专业应届生求职信
2014/05/26 职场文书
六一亲子活动总结
2014/07/01 职场文书
三八妇女节标语
2014/10/09 职场文书
反腐倡廉观后感
2015/06/08 职场文书
php中配置文件保存修改操作 如config.php文件的读取修改等操作
2021/05/12 PHP
浅谈Redis 中的过期删除策略和内存淘汰机制
2022/04/03 Redis
win10系统计算机图标怎么调出来?win10调出计算机图标的方法
2022/08/14 数码科技