编程 Python

Pandas搭配lambda组合使用详解

Posted in Python onJanuary 22, 2022

导入模块与读取数据

我们第一步需要导入模块以及数据集

import pandas as pd

df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()

创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列，例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的，那么lambda方法就很多必要被运用到了，我们先来定义一个函数方法

def custom_rating(genre,rating):
    if 'Thriller' in genre:
        return min(10,rating+1)
    elif 'Comedy' in genre:
        return max(0,rating-1)
    elif 'Drama' in genre:
        return max(5, rating-1)
    else:
        return rating

我们对于不同类别的电影采用了不同方式的评分方法，例如对于“惊悚片”，评分的方法则是在“原来的评分+1”和10分当中取一个最小的，而对于“喜剧”类别的电影，则是在0分和“原来的评分-1”当中取一个最大的，然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我们这里需要说明一下axis参数的作用，其中axis=1代表跨列而axis=0代表跨行，如下图所示

Pandas搭配lambda组合使用详解

筛选数据

在pandas当中筛选数据相对来说比较容易，可以用到& | ~这些操作符，代码如下

# 单个条件，评分大于5分的
df_gt_5 = df[df['Rating']>5]

# 多个条件: AND - 同时满足评分高于5分并且投票大于100000的
And_df = df[(df['Rating']>5) & (df['Votes']>100000)]

# 多个条件: OR - 满足评分高于5分或者投票大于100000的
Or_df = df[(df['Rating']>5) | (df['Votes']>100000)]

# 多个条件：NOT - 将满足评分高于5分或者投票大于100000的数据排除掉
Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

这些都是非常简单并且是常见的例子，但是要是我们想要筛选出电影的影名长度大于5的部分，要是也采用上面的方式就会报错

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

这里我们还是采用apply和lambda相结合，来实现上面的功能

#创建一个新的列来存储每一影片名的长度
df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1)

#筛选出影片名长度大于5的部分
new_df = df[df['num_words_title']>=5]

当然要是大家觉得上面的方法有点繁琐的话，也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我们想要筛选出那些影片的票房低于当年平均水平的数据，可以这么来做。

我们先要对每年票房的的平均值做一个归总，代码如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况，返回的是布尔值

def bool_provider(revenue, year):
    return revenue<year_revenue_dict[year]

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],x['Year']),axis=1)]

我们筛选数据的时候，主要是用.loc方法，它同时也可以和lambda方法联用，例如我们想要筛选出评分在5-8分之间的电影以及它们的票房，代码如下

df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]

转变指定列的数据类型

通常我们转变指定列的数据类型，都是调用astype方法来实现的，例如我们将“Price”这一列的数据类型转变成整型的数据，代码如下

df['Price'].astype('int')

会出现如下所示的报错信息

ValueError: invalid literal for int() with base 10: '12,000'

因此当出现类似“12,000”的数据的时候，调用astype方法实现数据类型转换就会报错，因此我们还需要将到apply和lambda结合进行数据的清洗，代码如下

df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)

方法调用过程的可视化

有时候我们在处理数据集比较大的时候，调用函数方法需要比较长的时间，这个时候就需要有一个要是有一个进度条，时时刻刻向我们展示数据处理的进度，就会直观很多了。

这里用到的是tqdm模块，我们将其导入进来

from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()

然后将apply方法替换成progress_apply即可，代码如下

df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)

output

Pandas搭配lambda组合使用详解

当lambda方法遇到if-else

当然我们也可以将if-else运用在lambda自定义函数当中，代码如下

Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)

output

10

当然很多时候我们可能有多组if-else，这样写起来就有点麻烦了，代码如下

df['Rating'].apply(lambda x:"低分电影" if x < 3 else ("中等电影" if x>=3 and x < 5 else("高分电影" if x>=8 else "值得观看")))

看上去稍微有点凌乱了，这个时候，小编这里到还是推荐大家自定义函数，然后通过apply和lambda方法搭配使用。

到此这篇关于Pandas搭配lambda组合使用详解的文章就介绍到这了,更多相关Python Pandas 内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Pandas搭配lambda组合使用详解

- Author -

Python学习与数据挖掘

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python模拟enum枚举类型的方法小结

Apr 30 Python

浅谈Python的文件类型

May 30 Python

python3.5实现socket通讯示例(TCP）

Feb 07 Python

python条件变量之生产者与消费者操作实例分析

Mar 22 Python

Python实现利用最大公约数求三个正整数的最小公倍数示例

Sep 30 Python

python实现淘宝秒杀聚划算抢购自动提醒源码

Jun 23 Python

Python使用itertools模块实现排列组合功能示例

Jul 02 Python

Python socket非阻塞模块应用示例

Sep 12 Python

Python基于百度AI实现OCR文字识别

Apr 02 Python

20行Python代码实现视频字符化功能

Apr 13 Python

Python下载网易云歌单歌曲的示例代码

Aug 12 Python

Python办公自动化之Excel（中）

May 24 Python

Python中的tkinter库简单案例详解

Jan 22 #Python

解析python中的jsonpath 提取器

Jan 18 #Python

Python中如何处理常见报错

Jan 18 #Python

Python机器学习应用之工业蒸汽数据分析篇详解

用Python可视化新冠疫情数据

Python机器学习应用之基于线性判别模型的分类篇详解

68行Python代码实现带难度升级的贪吃蛇

Jan 18 #Python

You might like

vBulletin HACK----显示话题大小和打开新窗口于论坛索引页

2006/10/09 PHP

PHP strtotime函数详解

2009/12/18 PHP

PHP 工厂模式使用方法

2010/05/18 PHP

php多个字符串替换成同一个的解决方法

2013/06/18 PHP

thinkphp数据查询和遍历数组实例

2014/11/28 PHP

PHP文件操作方法汇总

2015/07/01 PHP

laravel框架添加数据,显示数据,返回成功值的方法

2019/10/11 PHP

彪哥1.1(智能表格)提供下载

2006/09/07 Javascript

IE和FireFox(FF)中js和css的不同

2009/04/13 Javascript

高亮显示web页表格行的javascript代码

2010/11/19 Javascript

jQuery Jcrop插件实现图片选取功能

2011/11/23 Javascript

div模拟滚动条效果示例代码

2013/10/16 Javascript

浅析javascript操作 cookie对象

2014/12/26 Javascript

jQuery中outerWidth()方法用法实例

2015/01/19 Javascript

javascript实现在线客服效果

2015/07/15 Javascript

jQuery多文件异步上传带进度条实例代码

2016/08/16 Javascript

Angular组件化管理实现方法分析

2017/03/17 Javascript

利用es6 new.target来对模拟抽象类的方法

2019/05/10 Javascript

vue设置动态请求地址的例子

2019/11/01 Javascript

[01:09:16]DOTA2-DPC中国联赛正赛 SAG vs Dynasty BO3 第一场 1月25日

2021/03/11 DOTA

Python enumerate遍历数组示例应用

2008/09/06 Python

利用Python绘制数据的瀑布图的教程

2015/04/07 Python

详解一种用django_cache实现分布式锁的方式

2019/09/01 Python

Python代理IP爬虫的新手使用教程

2019/09/05 Python

余弦相似性计算及python代码实现过程解析

2019/09/18 Python

pandas创建DataFrame的7种方法小结

2020/06/14 Python

Python 生成短8位唯一id实战教程

2021/01/13 Python

CSS3制作日历实现代码

2012/01/21 HTML / CSS

日本酒店、民宿、温泉旅馆、当地旅行团中文预订：e路东瀛

2019/12/09 全球购物

某公司.Net方向面试题

2014/04/24 面试题

部队学习十八大感言

2014/01/11 职场文书

主持人演讲稿

2014/05/13 职场文书

商业企业管理专业求职信

2014/07/10 职场文书

导游词之太原天龙山

2020/01/02 职场文书

深入理解redis中multi与pipeline

2021/06/02 Redis

Zabbix对Kafka topic积压数据监控的解决方案

2022/07/07 Servers