python 实现 hive中类似 lateral view explode的功能示例


Posted in Python onMay 18, 2020

背景:加入现在有这样的数据,可能一条ocr代表两个label,并且label通过","分隔。我们想把数据转换成下面的。

原始数据:

label ocr
日常行车服务,汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光

目标数据:

label ocr
日常行车服务 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光

实现办法:

1.通过hive代码:

select ocr,split(tag_info,',') label
from 
(
 select label,ocr 
 from t1
 lateral view explode(split(label,',')) TableName as tag_info 
) t;

要注意的是一定要添加 t 语句另命名。

2.通过python代码:

df0 = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]})
df0 = df
df0.columns = ['A','B']
rows = []
for i, row in df0.iterrows():
 for a in row.A.split(","):
 rows.append((a, row.B))
df222 = pd.DataFrame(rows, columns=df.columns)
df222

补充知识:hive中的lateral view(侧视图) 与 explode函数的使用

今天偶然间发现了一个hive中列转行的小题目,需要用到lateral view 和 explode函数,刚好借这题说说lateral view 与 explode函数的使用。

题目是这样:

原数据表如下图

movie category
《疑犯追踪》 悬疑,动作,科幻,剧情
《Lie to me》 悬疑,警匪,动作,心理,剧情
《战狼2》 战争,动作,灾难

需求:将电影分类中的数组数据展开。

结果如下:

《疑犯追踪》 悬疑
《疑犯追踪》 动作
《疑犯追踪》 科幻
《疑犯追踪》 剧情
《Lie to me》 悬疑
《Lie to me》 警匪

先简单聊几句理论:explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与lateral view在这种场景下大显身手。

explode作用是处理map结构的字段,使用案例如下:

//建表语句
create table movie_info(
movie string,
category array<string>
)
row format delimited fields terminated by '\t'
collection items terminated by ',';
//加载数据
load data local inpath '/opt/data/movie.txt' into table movie_info;

看下explode函数效果,以拆解category为例,可与原数据表结构对比。

select explode(category) from movie_info;

python 实现 hive中类似 lateral view explode的功能示例

LATERAL VIEW的使用:

用法:

LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

select movie,category_name
from movie_info
lateral view explode(category) table_emp as category_name;

效果如下:

python 实现 hive中类似 lateral view explode的功能示例

其中lateral view explode(category) table_emp相当于一个虚拟表,与原表movie_info笛卡尔积关联,也可以多重使用。那么问题就这样解决了。

以上这篇python 实现 hive中类似 lateral view explode的功能示例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python编写检测数据库SA用户的方法
Jul 11 Python
qpython3 读取安卓lastpass Cookies
Jun 19 Python
Python的面向对象编程方式学习笔记
Jul 12 Python
[原创]使用豆瓣提供的国内pypi源
Jul 02 Python
python3解析库lxml的安装与基本使用
Jun 27 Python
Python对excel文档的操作方法详解
Dec 10 Python
用Python实现大文本文件切割的方法
Jan 12 Python
python__name__原理及用法详解
Nov 02 Python
Python如何实现定时器功能
May 28 Python
深入理解Python 多线程
Jun 16 Python
PyTorch之nn.ReLU与F.ReLU的区别介绍
Jun 27 Python
学习Python爬虫的几点建议
Aug 05 Python
pandas dataframe 中的explode函数用法详解
May 18 #Python
Python pandas 列转行操作详解(类似hive中explode方法)
May 18 #Python
Win 10下Anaconda虚拟环境的教程
May 18 #Python
python异常处理之try finally不报错的原因
May 18 #Python
Pandas实现一列数据分隔为两列
May 18 #Python
Python捕获异常堆栈信息的几种方法(小结)
May 18 #Python
Windows 下更改 jupyterlab 默认启动位置的教程详解
May 18 #Python
You might like
PHP的历史和优缺点
2006/10/09 PHP
php 保留字列表
2012/10/04 PHP
PHP四舍五入精确小数位及取整
2014/01/14 PHP
laravel容器延迟加载以及auth扩展详解
2015/03/02 PHP
使用PHP进行微信公众平台开发的示例
2015/08/21 PHP
Symfony2框架学习笔记之表单用法详解
2016/03/18 PHP
Thinkphp框架使用list_to_tree 实现无限级分类列出所有节点示例
2020/04/04 PHP
PHP设计模式概论【概念、分类、原则等】
2020/05/01 PHP
JS 图片缩放效果代码
2010/06/09 Javascript
JavaScript 大数据相加的问题
2011/08/03 Javascript
自动刷新网页,自动刷新当前页面,JS调用
2013/06/24 Javascript
js显示文本框提示文字的方法
2015/05/07 Javascript
深入理解jquery自定义动画animate()
2016/05/24 Javascript
JavaScript仿微博发布信息案例
2016/11/16 Javascript
JS异步文件分片断点上传的实现思路
2016/12/25 Javascript
前端开发不得不知的10个最佳ES6特性
2017/08/30 Javascript
vue微信分享 vue实现当前页面分享其他页面
2017/12/02 Javascript
vue 使某个组件不被 keep-alive 缓存的方法
2018/09/21 Javascript
详解Node.js一行命令上传本地文件到服务器
2019/04/22 Javascript
js类的继承定义与用法分析
2019/06/21 Javascript
详解Vue 项目中的几个实用组件(ts)
2019/10/29 Javascript
javascript设计模式 ? 备忘录模式原理与用法实例分析
2020/04/21 Javascript
JavaScript实现切换多张图片
2021/01/27 Javascript
Vue中避免滥用this去读取data中数据
2021/03/02 Vue.js
python执行等待程序直到第二天零点的方法
2015/04/23 Python
Python中的命令行参数解析工具之docopt详解
2017/03/27 Python
python线程中同步锁详解
2018/04/27 Python
Matplotlib中文乱码的3种解决方案
2018/11/15 Python
通过pykafka接收Kafka消息队列的方法
2018/12/27 Python
英国领先的鞋类零售商:Shoe Zone
2018/12/13 全球购物
《窗前的气球》教学反思
2014/04/07 职场文书
安全技术说明书
2014/05/09 职场文书
父亲节活动策划方案
2014/08/24 职场文书
护士业务学习心得体会
2016/01/25 职场文书
Python实现学生管理系统并生成exe可执行文件详解流程
2022/01/22 Python
PostgreSQL数据库去除重复数据和运算符的基本查询操作
2022/04/12 PostgreSQL