python 实现 hive中类似 lateral view explode的功能示例


Posted in Python onMay 18, 2020

背景:加入现在有这样的数据,可能一条ocr代表两个label,并且label通过","分隔。我们想把数据转换成下面的。

原始数据:

label ocr
日常行车服务,汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光

目标数据:

label ocr
日常行车服务 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员
社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光

实现办法:

1.通过hive代码:

select ocr,split(tag_info,',') label
from 
(
 select label,ocr 
 from t1
 lateral view explode(split(label,',')) TableName as tag_info 
) t;

要注意的是一定要添加 t 语句另命名。

2.通过python代码:

df0 = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]})
df0 = df
df0.columns = ['A','B']
rows = []
for i, row in df0.iterrows():
 for a in row.A.split(","):
 rows.append((a, row.B))
df222 = pd.DataFrame(rows, columns=df.columns)
df222

补充知识:hive中的lateral view(侧视图) 与 explode函数的使用

今天偶然间发现了一个hive中列转行的小题目,需要用到lateral view 和 explode函数,刚好借这题说说lateral view 与 explode函数的使用。

题目是这样:

原数据表如下图

movie category
《疑犯追踪》 悬疑,动作,科幻,剧情
《Lie to me》 悬疑,警匪,动作,心理,剧情
《战狼2》 战争,动作,灾难

需求:将电影分类中的数组数据展开。

结果如下:

《疑犯追踪》 悬疑
《疑犯追踪》 动作
《疑犯追踪》 科幻
《疑犯追踪》 剧情
《Lie to me》 悬疑
《Lie to me》 警匪

先简单聊几句理论:explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与lateral view在这种场景下大显身手。

explode作用是处理map结构的字段,使用案例如下:

//建表语句
create table movie_info(
movie string,
category array<string>
)
row format delimited fields terminated by '\t'
collection items terminated by ',';
//加载数据
load data local inpath '/opt/data/movie.txt' into table movie_info;

看下explode函数效果,以拆解category为例,可与原数据表结构对比。

select explode(category) from movie_info;

python 实现 hive中类似 lateral view explode的功能示例

LATERAL VIEW的使用:

用法:

LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

select movie,category_name
from movie_info
lateral view explode(category) table_emp as category_name;

效果如下:

python 实现 hive中类似 lateral view explode的功能示例

其中lateral view explode(category) table_emp相当于一个虚拟表,与原表movie_info笛卡尔积关联,也可以多重使用。那么问题就这样解决了。

以上这篇python 实现 hive中类似 lateral view explode的功能示例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 多进程通信模块的简单实现
Feb 20 Python
Python3.2中Print函数用法实例详解
May 19 Python
基于Python如何使用AIML搭建聊天机器人
Jan 27 Python
python3 发送任意文件邮件的实例
Jan 23 Python
caffe binaryproto 与 npy相互转换的实例讲解
Jul 09 Python
Python多进程原理与用法分析
Aug 21 Python
python 搭建简单的http server,可直接post文件的实例
Jan 03 Python
解决django的template中如果无法引用MEDIA_URL问题
Apr 07 Python
Pycharm2020.1安装中文语言插件的详细教程(不需要汉化)
Aug 07 Python
Django模型验证器介绍与源码分析
Sep 08 Python
上手简单,功能强大的Python爬虫框架——feapder
Apr 27 Python
python爬取某网站原图作为壁纸
Jun 02 Python
pandas dataframe 中的explode函数用法详解
May 18 #Python
Python pandas 列转行操作详解(类似hive中explode方法)
May 18 #Python
Win 10下Anaconda虚拟环境的教程
May 18 #Python
python异常处理之try finally不报错的原因
May 18 #Python
Pandas实现一列数据分隔为两列
May 18 #Python
Python捕获异常堆栈信息的几种方法(小结)
May 18 #Python
Windows 下更改 jupyterlab 默认启动位置的教程详解
May 18 #Python
You might like
浅析iis7.5安装配置php环境
2015/05/10 PHP
如何使用Gitblog和Markdown建自己的博客
2015/07/31 PHP
yii使用activeFileField控件实现上传文件与图片的方法
2015/12/28 PHP
Zend Framework教程之Loader以及PluginLoader用法详解
2016/03/09 PHP
表格 隔行换色升级版
2009/11/07 Javascript
基于jquery的获取浏览器窗口大小的代码
2011/03/28 Javascript
封装的jquery翻页滚动(示例代码)
2013/11/18 Javascript
使用正则表达式的格式化与高亮显示json字符串
2014/12/03 Javascript
JavaScript 消息框效果【实现代码】
2016/04/27 Javascript
jquery 标签 隔若干行加空白或者加虚线的方法
2016/12/07 Javascript
实例分析浏览器中“JavaScript解析器”的工作原理
2016/12/12 Javascript
Javascript面试经典套路reduce函数查重
2017/03/23 Javascript
关于JavaScript的单双引号嵌套问题
2017/08/20 Javascript
基于cropper.js封装vue实现在线图片裁剪组件功能
2018/03/01 Javascript
Vue 全局loading组件实例详解
2018/05/29 Javascript
微信{"errcode":48001,"errmsg":"api unauthorized, hints: [ req_id: 1QoCla0699ns81 ]"}
2018/10/12 Javascript
基于JS实现前端压缩上传图片的实例代码
2019/05/14 Javascript
解决Layui 表格自适应高度的问题
2019/11/15 Javascript
go语言计算两个时间的时间差方法
2015/03/13 Python
快速排序的算法思想及Python版快速排序的实现示例
2016/07/02 Python
python 限制函数调用次数的实例讲解
2018/04/21 Python
Python文本统计功能之西游记用字统计操作示例
2018/05/07 Python
django之自定义软删除Model的方法
2019/08/14 Python
pytorch中的自定义数据处理详解
2020/01/06 Python
tensorflow 初始化未初始化的变量实例
2020/02/06 Python
Django 项目布局方法(值得推荐)
2020/03/22 Python
Python制作一个仿QQ办公版的图形登录界面
2020/09/22 Python
西班牙土拨鼠床垫公司,感觉在云端:Marmota
2019/03/18 全球购物
高中班长自我鉴定
2013/12/20 职场文书
计算机专业毕业生求职信
2014/04/30 职场文书
史学专业毕业生求职信
2014/05/09 职场文书
2019毕业典礼主持词!
2019/07/05 职场文书
SQL 窗口函数实现高效分页查询的案例分析
2021/05/21 SQL Server
Django实现聊天机器人
2021/05/31 Python
Spring Bean的实例化之属性注入源码剖析过程
2021/06/13 Java/Android
Vue3如何理解ref toRef和toRefs的区别
2022/02/18 Vue.js