pandas使用函数批量处理数据(map、apply、applymap)


Posted in Python onNovember 27, 2020

前言

在我们对DataFrame对象进行处理时候,下意识的会想到对DataFrame进行遍历,然后将处理后的值再填入DataFrame中,这样做比较繁琐,且处理大量数据时耗时较长。Pandas内置了一个可以对DataFrame批量进行函数处理的工具:map、apply和applymap。

提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍

一、pandas.Series.map()是什么?

把Series中的值进行逐一映射,带入进函数、字典或Series中得出的另一个值。

Series.map(arg, na_action=None)

参数:

  • arg:函数、字典类数据、Series;映射对应关系
  • na_action{None, ‘ignore'}:默认为None;处理NaN变量,如果为None则不处理NaN对象,如果为‘ignore'则将NaN对象当做普通对象带入规则。

返回Series

二、pandas.Series.map()用法和优点

本节主要讲述map()函数的主要用法和相比于方法的优点

1、map()用法

创建案例DataFrame

import pandas as pd
import numpy as np
import time

data = pd.DataFrame({'name':['Verne Raymond','Chapman Becher','Patrick George','Saxon MacArthur',
               'Joshua Marjory','Luther Pigou','Fanny Agnes','Karen Bush','Elaine Whitman'],
             'gender':[0,1,0,0,1,1,1,0,1],'first_name':np.nan,'last_name':np.nan})

print(data)

              name  gender  first_name  last_name
0    Verne Raymond       0         NaN        NaN
1   Chapman Becher       1         NaN        NaN
2   Patrick George       0         NaN        NaN
3  Saxon MacArthur       0         NaN        NaN
4   Joshua Marjory       1         NaN        NaN
5     Luther Pigou       1         NaN        NaN
6      Fanny Agnes       1         NaN        NaN
7       Karen Bush       0         NaN        NaN
8   Elaine Whitman       1         NaN        NaN

现在需要将name列的姓和名拆分开来分别放入first_name 和last_name里面,使用map()函数实现,并计算所用时间

def first_name_map(x):
  return x.split(' ')[0]
def last_name_map(x):
  return x.split(' ')[1]

data['first_name'] = data['name'].map(first_name_map)
data['last_name'] = data['name'].map(last_name_map)

print('use time:'+str(end-start))
print(data)

use time:0.0009970664978027344
              name  gender first_name  last_name
0    Verne Raymond       0      Verne    Raymond
1   Chapman Becher       1    Chapman     Becher
2   Patrick George       0    Patrick     George
3  Saxon MacArthur       0      Saxon  MacArthur
4   Joshua Marjory       1     Joshua    Marjory
5     Luther Pigou       1     Luther      Pigou
6      Fanny Agnes       1      Fanny      Agnes
7       Karen Bush       0      Karen       Bush
8   Elaine Whitman       1     Elaine    Whitman

如果要将性别代号的0、1替换为中文Male和Female,可以使用字典映射功能,如下

data['gender'] = data['gender'].map({0:'Female',1:'Male'})

print(data)

              name  gender first_name  last_name
0    Verne Raymond  Female      Verne    Raymond
1   Chapman Becher    Male    Chapman     Becher
2   Patrick George  Female    Patrick     George
3  Saxon MacArthur  Female      Saxon  MacArthur
4   Joshua Marjory    Male     Joshua    Marjory
5     Luther Pigou    Male     Luther      Pigou
6      Fanny Agnes    Male      Fanny      Agnes
7       Karen Bush  Female      Karen       Bush
8   Elaine Whitman    Male     Elaine    Whitman

2、map()相比其他方式的优点

较普通的方法主要是方便和速度快,下面例子进行对比,上面已经计算过使用map()方法处理的速度为:0.0009970664978027344

传统遍历

start = time.time()
for index,rows in data.iterrows():
  data['first_name'][index] = rows['name'].split(' ')[0]
  data['last_name'][index] = rows['name'].split(' ')[1]
end = time.time()
print('use time:'+str(end-start))

use time:0.5146446228027344

可以看到使用map()方法比使用直接遍历的方式快了500多倍

list暂存的方法

start = time.time()
first_name = []
last_name = []
for index,rows in data.iterrows():
  first_name.append(rows['name'].split(' ')[0])
  last_name.append(rows['name'].split(' ')[1])
data['first_name'] = first_name
data['last_name'] = last_name
end = time.time()
print('use time:'+str(end-start))

use time:0.001994609832763672

可以看出来使用list暂存的方法比遍历方法快了250多倍,但是比map方法还是慢了一半

二、apply()函数

apply()的使用方法与map()的使用方法类似,只是apply()除了传入Series参数外还可以多传入额外的参数。

Series.apply(func,convert_dtype = True,args = (), **kwds)

参数:
func:函数名称

convert_dtype:bool类值, 默认为True;尝试自己寻找最适合的数据类型。如果为False则dtype=object。

args:元组;在Series之后传递位置参数信息

**kwds:给函数传递其他参数(以字典的形式)

返回Series或DataFrame

下面是案例(参考官方文档案例)

s = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
print(s)

London      20
New York    21
Helsinki    12
dtype: int64

处理数据

def subtract_custom_value(x, custom_value):
  return x - custom_value
s.apply(subtract_custom_value, args=(5,))

London      15
New York    16
Helsinki     7
dtype: int64

使用**kwds参数

def subtract_custom_value(x, **kwds):
  for key in kwds:
    x -= kwds[key]
  return x
s.apply(subtract_custom_value, num = 5)

London      15
New York    16
Helsinki     7
dtype: int64

三、applymap()函数用法

applymap()函数处理的对象是DataFrame,并非Series,它没有前面两个函数用得多,但在某些情况也很有用。

DataFrame.applymap(func)

参数:
func:函数;要调用的Python函数,输入输出都为单个值

返回DataFrame

下面是简单的案例:

import pandas as pd
import numpy as np
data = pd.DataFrame(
  {
    "A":np.random.randn(3),
    "B":np.random.randn(3),
    "C":np.random.randn(3),
  }
)
print(data )

          A         B         C
0  2.128483 -1.701311 -1.362955
1 -1.149937  1.108856 -0.259637
2 -0.076621 -0.379672 -2.636464

计算所有值的平方:

data.applymap(lambda x: x**2)

          A         B         C
0  4.530439  2.894459  1.857645
1  1.322356  1.229561  0.067411
2  0.005871  0.144151  6.950940

总结

本文展示了Pandas将数据映射到函数里批量快速处理的方法,主要使用的了Pandas自带的map、apply和applymap工具,实验结果是比普通循环快500倍,后续还将介绍更多数据处理实用的技巧。

到此这篇关于pandas使用函数批量处理数据(map、apply、applymap)的文章就介绍到这了,更多相关pandas函数批量内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中的迭代器漫谈
Feb 03 Python
Python中使用logging模块打印log日志详解
Apr 05 Python
python中numpy.zeros(np.zeros)的使用方法
Nov 07 Python
python检测空间储存剩余大小和指定文件夹内存占用的实例
Jun 11 Python
Python小进度条显示代码
Mar 05 Python
python 将有序数组转换为二叉树的方法
Mar 26 Python
梅尔频率倒谱系数(mfcc)及Python实现
Jun 18 Python
解决Django一个表单对应多个按钮的问题
Jul 18 Python
基于python中__add__函数的用法
Nov 25 Python
Python web如何在IIS发布应用过程解析
May 27 Python
win10安装python3.6的常见问题
Jul 01 Python
怎么解决pycharm license Acti的方法
Oct 28 Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
使用Python画了一棵圣诞树的实例代码
Nov 27 #Python
python 用opencv实现霍夫线变换
Nov 27 #Python
详解python定时简单爬取网页新闻存入数据库并发送邮件
Nov 27 #Python
五种Python转义表示法
Nov 27 #Python
Django如何继承AbstractUser扩展字段
Nov 27 #Python
You might like
239军机修复记
2021/03/02 无线电
php mysql 判断update之后是否更新了的方法
2012/01/10 PHP
PHP程序员必须清楚的问题汇总
2014/12/18 PHP
使用phpQuery获取数组的实例
2017/03/13 PHP
一个用js实现控制台控件的代码
2007/09/04 Javascript
js字符编码函数区别分析
2011/12/28 Javascript
jquery实现奇偶行赋值不同css值
2012/02/17 Javascript
JS日期和时间选择控件升级版(自写)
2013/08/02 Javascript
JS通过相同的name进行表格求和代码
2013/08/18 Javascript
一个不错的js html页面倒计时可精确到秒
2014/10/22 Javascript
js文字横向滚动特效
2015/11/11 Javascript
jQuery实现只允许输入数字和小数点的方法
2016/03/02 Javascript
快速移动鼠标触发问题及解决方法(ECharts外部调用保存为图片操作及工作流接线mouseenter和mouseleave)
2016/08/29 Javascript
用瀑布流的方式在网页上插入图片的简单实现方法
2016/09/23 Javascript
JavaScript实现清空(重置)文件类型INPUT元素值的方法
2016/11/17 Javascript
vue 2.0组件与v-model详解
2017/03/27 Javascript
ES6中箭头函数的定义与调用方式详解
2017/06/02 Javascript
javascript基础进阶_深入剖析执行环境及作用域链
2017/09/05 Javascript
JavaScript实现随机数生成器(去重)
2017/10/13 Javascript
JS实现div模块的截图并下载功能
2017/10/17 Javascript
js数组去重的方法总结
2019/01/18 Javascript
性能优化篇之Webpack构建速度优化的建议
2019/04/03 Javascript
详解vue 2.6 中 slot 的新用法
2019/07/09 Javascript
JS为什么说async/await是generator的语法糖详解
2019/07/11 Javascript
使用Python的Zato发送AMQP消息的教程
2015/04/16 Python
Python中列表和元组的使用方法和区别详解
2020/12/30 Python
Python简单实现阿拉伯数字和罗马数字的互相转换功能示例
2018/04/17 Python
python图形开发GUI库pyqt5的详细使用方法及各控件的属性与方法
2020/02/14 Python
Python中有几个关键字
2020/06/04 Python
Algenist奥杰尼官网:微藻抗衰老护肤品牌
2017/07/15 全球购物
GWebs公司笔试题
2012/05/04 面试题
模具设计与制造专业应届生求职信
2013/10/18 职场文书
工作迟到检讨书
2014/02/21 职场文书
2015年采购工作总结
2015/04/10 职场文书
国王的演讲观后感
2015/06/03 职场文书
Python读取文件夹下的所有文件实例代码
2021/04/02 Python