python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python  连接字符串(join %)
Sep 06 Python
使用python Django做网页
Nov 04 Python
python求众数问题实例
Sep 26 Python
低版本中Python除法运算小技巧
Apr 05 Python
Python遍历zip文件输出名称时出现乱码问题的解决方法
Apr 08 Python
Python中转换角度为弧度的radians()方法
May 18 Python
Python设置在shell脚本中自动补全功能的方法
Jun 25 Python
python flask实现分页的示例代码
Aug 02 Python
Django中日期处理注意事项与自定义时间格式转换详解
Aug 06 Python
解决python 未发现数据源名称并且未指定默认驱动程序的问题
Dec 07 Python
Python实现定制自动化业务流量报表周报功能【XlsxWriter模块】
Mar 11 Python
在自动化中用python实现键盘操作的方法详解
Jul 19 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
PHP的FTP学习(一)[转自奥索]
2006/10/09 PHP
一个简易需要注册的留言版程序
2006/10/09 PHP
PHP在不同页面间传递Json数据示例代码
2013/06/08 PHP
PHP中使用json数据格式定义字面量对象的方法
2014/08/20 PHP
PHP中使用imagick生成PSD文件缩略图教程
2015/01/26 PHP
PHP通过API获取手机号码归属地
2015/05/28 PHP
54个提高PHP程序运行效率的方法
2015/07/19 PHP
浅谈php常用的7大框架的优缺点
2020/07/20 PHP
Mac系统下搭建Nginx+php-fpm实例讲解
2020/12/15 PHP
根据IP的地址,区分不同的地区,查看不同的网站页面的js代码
2013/02/26 Javascript
jquery中加载图片自适应大小主要实现代码
2013/08/23 Javascript
js鼠标滑轮滚动事件绑定的简单实例(兼容主流浏览器)
2014/01/14 Javascript
javascript+canvas制作九宫格小程序
2014/12/28 Javascript
深入理解jQuery 事件处理
2016/06/14 Javascript
Nodejs从有门道无门菜鸟起飞必看教程
2016/07/20 NodeJs
尝试自己动手用react来写一个分页组件(小结)
2018/02/09 Javascript
浅谈js获取ModelAndView值的问题
2018/03/28 Javascript
JavaScript创建对象方法实例小结
2018/09/03 Javascript
vue实现图片预览组件封装与使用
2019/07/13 Javascript
python 实现插入排序算法
2012/06/05 Python
Python的包管理器pip更换软件源的方法详解
2016/06/20 Python
python如何在列表、字典中筛选数据
2018/03/19 Python
详解Pycharm出现out of memory的终极解决方法
2020/03/03 Python
Python select及selectors模块概念用法详解
2020/06/22 Python
解决python对齐错误的方法
2020/07/16 Python
印尼最大的网上书店:Gramedia.com
2018/09/13 全球购物
linux面试题参考答案(5)
2016/11/05 面试题
幼师自荐信范文
2013/10/06 职场文书
北大研究生linux应用求职信
2013/10/29 职场文书
网络工程师职业规划
2014/02/10 职场文书
放飞梦想演讲稿
2014/05/05 职场文书
2014年乡镇卫生院工作总结
2014/11/24 职场文书
惊涛骇浪观后感
2015/06/05 职场文书
监护人证明
2015/06/19 职场文书
源码分析Redis中 set 和 sorted set 的使用方法
2022/03/22 Redis
Java中的继承、多态以及封装
2022/04/11 Java/Android