python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基于xml parse实现解析cdatasection数据
Sep 30 Python
python实现登陆知乎获得个人收藏并保存为word文件
Mar 16 Python
Python的“二维”字典 (two-dimension dictionary)定义与实现方法
Apr 27 Python
在CMD命令行中运行python脚本的方法
May 12 Python
解决Django migrate不能发现app.models的表问题
Aug 31 Python
python函数修饰符@的使用方法解析
Sep 02 Python
pandas 缺失值与空值处理的实现方法
Oct 12 Python
tensorflow -gpu安装方法(不用自己装cuda,cdnn)
Jan 20 Python
Python数据可视化图实现过程详解
Jun 12 Python
python中数字是否为可变类型
Jul 08 Python
python3.5的包存放的具体路径
Aug 16 Python
详解Pycharm安装及Django安装配置指南
Sep 15 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
php字符串分割函数explode的实例代码
2013/02/07 PHP
使用php测试硬盘写入速度示例
2014/01/27 PHP
php随机生成数字字母组合的方法
2015/03/18 PHP
Laravel5.5以下版本中如何自定义日志行为详解
2018/08/01 PHP
php 使用expat方式解析xml文件操作示例
2019/11/26 PHP
JavaScript 嵌套函数指向this对象错误的解决方法
2010/03/15 Javascript
javascript基础知识大集锦(二) 推荐收藏
2011/01/13 Javascript
利用JQuery和JS实现奇偶行背景颜色自定义效果
2012/11/19 Javascript
js的2种继承方式详解
2014/03/04 Javascript
jQuery实现异步获取json数据的2种方式
2014/08/29 Javascript
Javascript实现图片不间断滚动的代码
2016/06/22 Javascript
jQuery插件FusionCharts实现的MSBar3D图效果示例【附demo源码】
2017/03/23 jQuery
Angular2平滑升级到Angular4的步骤详解
2017/03/29 Javascript
node.js中express-session配置项详解
2017/05/31 Javascript
微信小程序实现换肤功能
2018/03/14 Javascript
layui实现动态和静态分页
2018/04/28 Javascript
layui数据表格跨行自动合并的例子
2019/09/02 Javascript
layer.open弹层查看缩略图的原图,自适应大小的实例
2019/09/05 Javascript
react使用CSS实现react动画功能示例
2020/05/18 Javascript
js实现弹幕飞机效果
2020/08/27 Javascript
js获取图片的base64编码并压缩
2020/12/05 Javascript
用Python计算三角函数之atan()方法的使用
2015/05/15 Python
python: line=f.readlines()消除line中\n的方法
2018/03/19 Python
python中for用来遍历range函数的方法
2018/06/08 Python
对Python强大的可变参数传递机制详解
2019/06/13 Python
Django实现发送邮件功能
2019/07/18 Python
用HTML5制作数字时钟的教程
2015/05/11 HTML / CSS
信息管理员岗位职责
2013/12/01 职场文书
给民警的表扬信
2014/01/08 职场文书
大学学雷锋活动总结
2014/06/26 职场文书
过程装备与控制工程专业求职信
2014/07/02 职场文书
应聘教师求职信
2014/07/19 职场文书
家电创业计划书
2019/08/05 职场文书
销区经理年终述职报告模板
2019/11/28 职场文书
用CSS3画一个爱心
2021/04/27 HTML / CSS
Redisson实现Redis分布式锁的几种方式
2021/08/07 Redis