python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
合并Excel工作薄中成绩表的VBA代码,非常适合教育一线的朋友
Apr 09 Python
python二叉树的实现实例
Nov 21 Python
Python中apply函数的用法实例教程
Jul 31 Python
Python利用itchat对微信中好友数据实现简单分析的方法
Nov 21 Python
Java编程迭代地删除文件夹及其下的所有文件实例
Feb 10 Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 Python
python skimage 连通性区域检测方法
Jun 21 Python
实例分析python3实现并发访问水平切分表
Sep 29 Python
python GUI库图形界面开发之PyQt5滑块条控件QSlider详细使用方法与实例
Feb 28 Python
Python插件机制实现详解
May 04 Python
利用python中的matplotlib打印混淆矩阵实例
Jun 16 Python
python3.7.3版本和django2.2.3版本是否可以兼容
Sep 01 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
玛琪朵 Macchiato
2021/03/03 咖啡文化
有关于PHP中常见数据类型的汇总分享
2014/01/06 PHP
PHP实现生成模糊图片的方法示例
2017/12/21 PHP
PHP判断是否微信访问的方法示例
2019/03/27 PHP
List Information About the Binary Files Used by an Application
2007/06/18 Javascript
JavaScript高级程序设计 DOM学习笔记
2011/09/10 Javascript
基于jquery实现后台左侧菜单点击上下滑动显示
2013/04/11 Javascript
JS小游戏之宇宙战机源码详解
2014/09/25 Javascript
浅析JavaScript中作用域和作用域链
2016/12/06 Javascript
JavaScript函数基础详解
2017/02/03 Javascript
jQuery实现select下拉框获取当前选中文本、值、索引
2017/05/08 jQuery
js + css实现标签内容切换功能(实例讲解)
2017/10/09 Javascript
vue项目总结之文件夹结构配置详解
2017/12/13 Javascript
解决Mint-ui 框架Popup和Datetime Picker组件滚动穿透的问题
2020/11/04 Javascript
[57:22]完美世界DOTA2联赛PWL S2 FTD vs PXG 第二场 11.27
2020/12/01 DOTA
使用PYTHON创建XML文档
2012/03/01 Python
pandas 获取季度,月度,年度首尾日期的方法
2018/04/11 Python
python使用matplotlib画饼状图
2018/09/25 Python
python自定义函数实现一个数的三次方计算方法
2019/01/20 Python
解决python中用matplotlib画多幅图时出现图形部分重叠的问题
2019/07/07 Python
Python 获取命令行参数内容及参数个数的实例
2019/12/20 Python
浅谈tensorflow中张量的提取值和赋值
2020/01/19 Python
Python实现Keras搭建神经网络训练分类模型教程
2020/06/12 Python
Html5中localStorage存储JSON数据并读取JSON数据的实现方法
2017/02/13 HTML / CSS
TripAdvisor德国:全球领先的旅游网站
2017/12/07 全球购物
女子锻炼服装和瑜伽服装:Splits59
2019/03/04 全球购物
管道维修工岗位职责
2013/12/27 职场文书
初中毕业生的自我评价
2014/03/03 职场文书
公司建议书怎么写
2014/05/15 职场文书
护士求职信范文
2014/05/24 职场文书
声乐专业大学生职业生涯规划书:理想的未来需要自己去打造
2014/09/20 职场文书
2015新年寄语大全
2014/12/08 职场文书
介绍信格式
2015/01/30 职场文书
简历自荐信范文
2015/03/09 职场文书
团结友爱主题班会
2015/08/13 职场文书
python flappy bird小游戏分步实现流程
2022/02/15 Python