python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
基于python 处理中文路径的终极解决方法
Apr 12 Python
pygame实现简易飞机大战
Sep 11 Python
对python3中pathlib库的Path类的使用详解
Oct 14 Python
解决pycharm 误删掉项目文件的处理方法
Oct 22 Python
python实现狄克斯特拉算法
Jan 17 Python
python实现PID算法及测试的例子
Aug 08 Python
python控制台实现tab补全和清屏的例子
Aug 20 Python
Python中xml和dict格式转换的示例代码
Nov 07 Python
python两种获取剪贴板内容的方法
Nov 06 Python
python 实现控制鼠标键盘
Nov 27 Python
python中altair可视化库实例用法
Jan 26 Python
python绘制云雨图raincloud plot
Aug 05 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
CI框架(CodeIgniter)实现的导入、导出数据操作示例
2018/05/24 PHP
弹出广告特效代码(一个IP只弹出一次)
2007/05/11 Javascript
javascript之querySelector和querySelectorAll使用说明
2011/10/09 Javascript
javascript中的document.open()方法使用介绍
2013/10/09 Javascript
js图片处理示例代码
2014/05/12 Javascript
Bootstrap每天必学之弹出框(Popover)插件
2016/04/25 Javascript
JS在Chrome浏览器中showModalDialog函数返回值为undefined的解决方法
2016/08/03 Javascript
Jquery循环截取字符串的方法(多出的字符串处理成"...")
2016/11/28 Javascript
深入nodejs中流(stream)的理解
2017/03/27 NodeJs
深入理解React中何时使用箭头函数
2017/08/23 Javascript
手动用webpack搭建第一个ReactApp的示例
2018/04/11 Javascript
微信小程序云开发之使用云数据库
2019/05/17 Javascript
vue+高德地图写地图选址组件的方法
2019/05/18 Javascript
Vue实现数据请求拦截
2019/10/23 Javascript
JavaScript中的函数式编程详解
2020/08/22 Javascript
[48:21]林俊杰圣堂刺客超神杀戮秀
2014/10/29 DOTA
[02:28]DOTA2亚洲邀请赛 LGD战队巡礼
2015/02/03 DOTA
[52:20]VP vs VG Supermajor小组赛 B组胜者组决赛 BO3 第一场 6.2
2018/06/03 DOTA
python操作数据库之sqlite3打开数据库、删除、修改示例
2014/03/13 Python
python实现人人自动回复、抢沙发功能
2018/06/08 Python
Jupyter 无法下载文件夹如何实现曲线救国
2020/04/22 Python
Java爬虫技术框架之Heritrix框架详解
2020/07/22 Python
HTML5学习笔记之History API
2015/02/26 HTML / CSS
HTML5全屏(Fullscreen)API详细介绍
2015/04/24 HTML / CSS
全球最大的户外用品零售商之一:The House
2018/06/12 全球购物
Nike加拿大官网:Nike.com (CA)
2019/04/09 全球购物
正宗的日本零食和糖果订阅盒:Bokksu
2019/11/21 全球购物
bonprix荷兰网上商店:便宜的服装、鞋子和家居用品
2020/07/04 全球购物
英文版餐饮运营管理求职信
2013/11/06 职场文书
现金会计岗位职责
2013/12/05 职场文书
区域销售经理岗位职责
2013/12/10 职场文书
南京市纪委监察局整改方案
2014/09/16 职场文书
2016年政治理论学习心得体会
2016/01/25 职场文书
《为人民服务》教学反思
2016/02/20 职场文书
2016年学生会感恩节活动总结
2016/04/01 职场文书
python之np.argmax()及对axis=0或者1的理解
2021/06/02 Python