python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python列表推导式的使用方法
Nov 21 Python
Django实现登录随机验证码的示例代码
Jun 20 Python
python利用requests库模拟post请求时json的使用教程
Dec 07 Python
Django 实现admin后台显示图片缩略图的例子
Jul 28 Python
python实现对图片进行旋转,放缩,裁剪的功能
Aug 07 Python
Django 多表关联 存储 使用方法详解 ManyToManyField save
Aug 09 Python
使用PyTorch训练一个图像分类器实例
Jan 08 Python
Python super()方法原理详解
Mar 31 Python
如何配置关联Python 解释器 Anaconda的教程(图解)
Apr 30 Python
在pycharm中关掉ipython console/PyDev操作
Jun 09 Python
基于python实现简单C/S模式代码实例
Sep 14 Python
python利用pandas分析学生期末成绩实例代码
Jul 09 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
PHP中实现汉字转区位码应用源码实例解析
2010/06/14 PHP
国产PHP开发框架myqee新手快速入门教程
2014/07/14 PHP
更优雅的事件触发兼容
2011/10/24 Javascript
很好用的js日历算法详细代码
2013/03/07 Javascript
JS刷新当前页面的几种方法总结
2013/12/24 Javascript
高性能JavaScript模板引擎实现原理详解
2015/02/05 Javascript
js判断手机端(Android手机还是iPhone手机)
2015/07/22 Javascript
JavaScript数组去重的两种方法推荐
2016/04/05 Javascript
轻松掌握JavaScript中的Math object数学对象
2016/05/26 Javascript
JS+CSS3模拟溢出滚动效果
2016/08/12 Javascript
通过网页查看JS源码中汉字显示乱码的解决方法
2016/10/26 Javascript
node.js中axios使用心得总结
2017/11/29 Javascript
vue中添加mp3音频文件的方法
2018/03/02 Javascript
JS实现的A*寻路算法详解
2018/12/14 Javascript
35个最好用的Vue开源库(史上最全)
2019/01/03 Javascript
Node.js assert断言原理与用法分析
2019/01/04 Javascript
vue百度地图 + 定位的详解
2019/05/13 Javascript
Python实现批量把SVG格式转成png、pdf格式的代码分享
2014/08/21 Python
Python编程二分法实现冒泡算法+快速排序代码示例
2018/01/15 Python
Python numpy实现二维数组和一维数组拼接的方法
2018/06/05 Python
在自动化中用python实现键盘操作的方法详解
2019/07/19 Python
Numpy对数组的操作:创建、变形(升降维等)、计算、取值、复制、分割、合并
2019/08/28 Python
Pytorch中实现只导入部分模型参数的方式
2020/01/02 Python
python使用多线程+socket实现端口扫描
2020/05/28 Python
python中四舍五入的正确打开方式
2021/01/18 Python
HTML5 Canvas绘制文本及图片的基础教程
2016/03/14 HTML / CSS
详解canvas绘图时遇到的跨域问题
2018/03/22 HTML / CSS
Notino罗马尼亚网站:购买香水和化妆品
2019/07/20 全球购物
为什么group by 和order by会使查询变慢
2014/05/16 面试题
餐饮业员工工作决心书
2014/03/11 职场文书
2014年服务员工作总结
2014/11/18 职场文书
单位接收证明格式
2015/06/18 职场文书
2016教师给学生的毕业寄语
2015/12/04 职场文书
领导干部学习十八届五中全会精神心得体会
2016/01/05 职场文书
go语言中fallthrough的用法说明
2021/05/06 Golang
Python中OpenCV实现查找轮廓的实例
2021/06/08 Python