pandas:get_dummies()与pd.factorize()的用法及区别说明


Posted in Python onMay 21, 2021

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:对应的编码array

uniques:需要编码的类型

补充:pandas.get_dummies 的使用及含义

get_dummies 是利用pandas实现one hot encode的方式

get_dummies参数如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默认为None,

用于追加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。或者,前缀 可以是将列名称映射到前缀的字典。

prefix_sep : string,默认为'_'

如果附加前缀,分隔符/分隔符要使用。或者传递与前缀一样的列表或字典。

dummy_na : bool,默认为False

如果忽略False NaN,则添加一列以指示NaN。

columns : 类似列表,默认为无

要编码的DataFrame中的列名称。如果列是None,那么所有与列 对象或类别 D型细胞将被转换。

sparse : bool,默认为False

伪编码列是否应由SparseArray(True)或常规NumPy数组(False)支持。

drop_first : bool,默认为False

是否通过删除第一级别从k分类级别获得k-1个假人。

版本0.18.0中的新功能。

dtype: D型,默认np.uint8

新列的数据类型。只允许一个dtype。

版本0.23.0中的新功能。

实例

pandas:get_dummies()与pd.factorize()的用法及区别说明

prefix自定义前缀

pandas:get_dummies()与pd.factorize()的用法及区别说明

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
精确查找PHP WEBSHELL木马的方法(1)
Apr 12 Python
python 字典(dict)遍历的四种方法性能测试报告
Jun 25 Python
Python实现类的创建与使用方法示例
Jul 25 Python
Python基于回溯法子集树模板解决m着色问题示例
Sep 07 Python
Python之文字转图片方法
May 10 Python
浅谈pymysql查询语句中带有in时传递参数的问题
Jun 05 Python
如何基于Python爬取隐秘的角落评论
Jul 02 Python
如何解决pycharm调试报错的问题
Aug 06 Python
Python图像读写方法对比
Nov 16 Python
python palywright库基本使用
Jan 21 Python
python之json文件转xml文件案例讲解
Aug 07 Python
Python实现照片卡通化
Dec 06 Python
python spilt()分隔字符串的实现示例
教你用python实现一个无界面的小型图书管理系统
一篇文章带你搞懂Python类的相关知识
Python深度学习之Pytorch初步使用
我对PyTorch dataloader里的shuffle=True的理解
Python快速优雅的批量修改Word文档样式
Django migrate报错的解决方案
You might like
人族 Terran 基本策略
2020/03/14 星际争霸
php Ajax乱码
2008/04/09 PHP
js和php邮箱地址验证的实现方法
2014/01/09 PHP
ThinkPHP、ZF2、Yaf、Laravel框架路由大比拼
2015/03/25 PHP
PHP数组常用函数实例小结
2018/08/20 PHP
PHP MVC框架中类的自动加载机制实例分析
2019/09/18 PHP
JavaScript 无符号右移赋值操作
2009/04/17 Javascript
Javascript attachEvent传递参数的办法
2009/12/14 Javascript
js模拟滚动条(横向竖向)
2013/02/22 Javascript
微信小程序 video组件详解
2016/10/25 Javascript
vue2滚动条加载更多数据实现代码
2017/01/10 Javascript
JS中Attr的用法详解
2017/10/09 Javascript
vue使用vue-i18n实现国际化的实现代码
2018/04/08 Javascript
微信小程序表单验证form提交错误提示效果
2020/06/19 Javascript
css配合JavaScript实现tab标签切换效果
2018/10/11 Javascript
详解vue中async-await的使用误区
2018/12/05 Javascript
非常实用的jQuery代码段集锦【检测浏览器、滚动、复制、淡入淡出等】
2019/08/08 jQuery
ES10的13个新特性示例(小结)
2019/09/23 Javascript
详解javascript void(0)
2020/07/13 Javascript
vue中实现点击空白区域关闭弹窗的两种方法
2020/12/30 Vue.js
[00:15]TI9地铁玩家打卡
2019/08/11 DOTA
python 合并文件的具体实例
2013/08/08 Python
Python第三方库h5py_读取mat文件并显示值的方法
2019/02/08 Python
python3获取当前目录的实现方法
2019/07/29 Python
python 操作hive pyhs2方式
2019/12/21 Python
python中类与对象之间的关系详解
2020/12/16 Python
美国在线精品家居网站:Burke Decor
2017/04/12 全球购物
在购买印度民族服饰:Soch
2020/09/15 全球购物
人力资源经理自我评价
2014/01/04 职场文书
个人对照检查材料
2014/02/12 职场文书
先进基层党组织事迹材料
2014/12/25 职场文书
超市员工辞职信范文
2015/05/12 职场文书
2015年领导班子工作总结
2015/05/23 职场文书
教师听课学习心得体会
2016/01/15 职场文书
如何写好一份优秀的工作总结?
2019/06/21 职场文书
浅析JavaScript中的变量提升
2022/06/01 Javascript