python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Python程序与服务器连接的WSGI接口
Apr 29 Python
Python中的getopt函数使用详解
Jul 28 Python
Python入门_条件控制(详解)
May 16 Python
详解Python之unittest单元测试代码
Jan 24 Python
Python内置函数reversed()用法分析
Mar 20 Python
python执行系统命令后获取返回值的几种方式集合
May 12 Python
基于 Django 的手机管理系统实现过程详解
Aug 16 Python
Pycharm中配置远程Docker运行环境的教程图解
Jun 11 Python
python实现b站直播自动发送弹幕功能
Feb 20 Python
教你怎么用python爬取爱奇艺热门电影
May 20 Python
PyTorch dropout设置训练和测试模式的实现
May 27 Python
Python集合set()使用的方法详解
Mar 18 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
php摘要生成函数(无乱码)
2012/02/04 PHP
ThinkPHP写第一个模块应用
2012/02/20 PHP
php控制文件下载速度的方法
2015/03/24 PHP
PHP 网站修改默认访问文件的nginx配置
2017/05/27 PHP
PDO::prepare讲解
2019/01/29 PHP
PHP7新功能总结
2019/04/14 PHP
javascript实现数字验证码的简单实例
2014/02/10 Javascript
jQuery+html5实现div弹出层并遮罩背景
2015/04/15 Javascript
jQuery实用技巧必备(上)
2015/11/02 Javascript
jQuery增加与删除table列的方法
2016/03/01 Javascript
解决jquery无法找到其他父级子集问题的方法
2016/05/10 Javascript
教你JS中的运算符乘方、开方及变量格式转换
2016/08/09 Javascript
jQuery通过ajax快速批量提交表单数据
2016/10/25 Javascript
Javascript oop设计模式 面向对象编程简单实例介绍
2016/12/13 Javascript
Web 开发中Ajax的Session 超时处理方法
2017/01/19 Javascript
jQuery实现遍历复选框的方法示例
2017/03/06 Javascript
巧用weui.topTips验证数据的实例
2017/04/17 Javascript
老生常谈js中的MVC
2017/07/25 Javascript
Element input树型下拉框的实现代码
2018/12/21 Javascript
微信小程序实现上传照片代码实例解析
2020/08/04 Javascript
Python cookbook(数据结构与算法)找到最大或最小的N个元素实现方法示例
2018/02/13 Python
Python使用wget实现下载网络文件功能示例
2018/05/31 Python
Python列表生成式与生成器操作示例
2018/08/01 Python
在Python中pandas.DataFrame重置索引名称的实例
2018/11/06 Python
python pygame模块编写飞机大战
2018/11/20 Python
PyCharm+Qt Designer+PyUIC安装配置教程详解
2019/06/13 Python
flask实现验证码并验证功能
2019/12/05 Python
详解Django配置JWT认证方式
2020/05/09 Python
python mysql自增字段AUTO_INCREMENT值的修改方式
2020/05/18 Python
python 日志模块logging的使用场景及示例
2021/01/04 Python
学术会议欢迎词
2014/01/09 职场文书
机关单位人员学雷锋心得体会
2014/03/10 职场文书
中班上学期个人总结
2015/02/12 职场文书
2019年聘任书的写作格式及范文!
2019/07/03 职场文书
56句经典英文座右铭
2019/08/09 职场文书
《弟子规》读后感:知廉耻、明是非、懂荣辱、辨善恶
2019/12/03 职场文书