pandas:get_dummies()与pd.factorize()的用法及区别说明


Posted in Python onMay 21, 2021

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

pandas:get_dummies()与pd.factorize()的用法及区别说明

prefix自定义前缀

pandas:get_dummies()与pd.factorize()的用法及区别说明

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Python Socket网络编程
Jan 05 Python
你眼中的Python大牛 应该都有这份书单
Oct 31 Python
Python操作mysql数据库实现增删查改功能的方法
Jan 15 Python
Python3正则匹配re.split,re.finditer及re.findall函数用法详解
Jun 11 Python
python使用numpy读取、保存txt数据的实例
Oct 14 Python
Django框架使用内置方法实现登录功能详解
Jun 12 Python
django admin组件使用方法详解
Jul 19 Python
Django中使用CORS实现跨域请求过程解析
Aug 05 Python
手把手教你pycharm专业版安装破解教程(linux版)
Sep 26 Python
Python 读取 YUV(NV12) 视频文件实例
Dec 09 Python
python删除文件、清空目录的实现方法
Sep 23 Python
利用django创建一个简易的博客网站的示例
Sep 29 Python
python spilt()分隔字符串的实现示例
教你用python实现一个无界面的小型图书管理系统
一篇文章带你搞懂Python类的相关知识
Python深度学习之Pytorch初步使用
我对PyTorch dataloader里的shuffle=True的理解
Python快速优雅的批量修改Word文档样式
Django migrate报错的解决方案
You might like
新浪新闻小偷
2006/10/09 PHP
坏狼的PHP学习教程之第1天
2008/06/15 PHP
用PHP伪造referer突破网盘禁止外连的代码
2008/06/15 PHP
PHP Warning: PHP Startup: Unable to load dynamic library \ D:/php5/ext/php_mysqli.dll\
2012/06/17 PHP
PHP HTTP 认证实例详解
2016/11/03 PHP
实现PHP中session存储及删除变量
2018/10/15 PHP
使用自定义setTimeout和setInterval使之可以传递参数和对象参数
2009/04/24 Javascript
利用javascript实现一些常用软件的下载导航
2009/08/03 Javascript
javascript 操作select下拉列表框的一点小经验
2010/03/20 Javascript
基于Jquery和html5实现炫酷的3D焦点图动画
2016/03/02 Javascript
基于 Node.js 实现前后端分离
2016/04/23 Javascript
jQuery 获取多选框的值及多选框中文的函数
2016/05/16 Javascript
最全面的JS倒计时代码
2016/09/17 Javascript
原生javascript实现读写CSS样式的方法详解
2017/02/20 Javascript
详解nodejs的express如何自动生成项目框架
2017/07/12 NodeJs
jQuery 获取除某指定对象外的其他对象 ( :not() 与.not())
2018/10/10 jQuery
微信小程序模板template简单用法示例
2018/12/04 Javascript
vue.js实现备忘录demo
2019/06/26 Javascript
JS实现的tab切换并显示相应内容模块功能示例
2019/08/03 Javascript
jQuery表单选择器用法详解
2019/08/22 jQuery
Python中支持向量机SVM的使用方法详解
2017/12/26 Python
Python获取当前公网ip并自动断开宽带连接实例代码
2018/01/12 Python
Python带动态参数功能的sqlite工具类
2018/05/26 Python
django+echart绘制曲线图的方法示例
2018/11/26 Python
Pycharm运行加载文本出现错误的解决方法
2019/06/27 Python
python实现logistic分类算法代码
2020/02/28 Python
解决Django提交表单报错:CSRF token missing or incorrect的问题
2020/03/13 Python
浅谈django不使用restframework自定义接口与使用的区别
2020/07/15 Python
函授生自我鉴定
2014/03/25 职场文书
2014年十一国庆节活动方案
2014/09/16 职场文书
党风廉政建设调研报告
2015/01/01 职场文书
幼儿园个人师德总结
2015/02/06 职场文书
签字仪式主持词
2015/07/03 职场文书
2016三严三实专题教育活动心得体会
2016/01/06 职场文书
电子表的操作介绍说明书
2019/10/28 职场文书
浅析python中特殊文件和特殊函数
2022/02/24 Python