编程 Python

python处理数据,存进hive表的方法

Posted in Python onJuly 04, 2018

首先，公司的小组长给了我一个任务，把一个txt的文件中的部分内容，存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个，首先，把数据处理成和hive中表相同结构的数据，然后仿照已有的hive中表的结构再创建一张新的数据表，最后把本地的txt文件上传到hive中新建的数据表中。

1：已有的数据表的结构和在hive表中的结构完全对不上，下面的图是原来hive中表的结构和小组长给我的txt中表的结构：

大家可以看出，我们原来的hive中表的字段一共有17个，而组长给我的表中的字段一共有9个，其中最后一个为json结构，而且顺序还不对，所以我们要进行筛选，把对应上的字段放到相应位置，对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方，原来的数据是按照tab来划分的，所以我们要数好对应的tab的数目，好来计算出来数据的实际的位置信息，然后我们按照原来hive表中的数据顺序，重新排列我们新建表的数据的顺序，下面给大家看看结果：

python处理数据,存进hive表的方法

其中line[0]=null，line[1]=102，大家以此类推。

3：我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表，然后把我们的数据导入到表中，

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后，把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果：

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python处理数据,存进hive表的方法

- Author -

小鱼人儿

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

基于python 处理中文路径的终极解决方法

Apr 12 Python

pygame实现简易飞机大战

Sep 11 Python

对python3中pathlib库的Path类的使用详解

Oct 14 Python

解决pycharm 误删掉项目文件的处理方法

Oct 22 Python

python实现狄克斯特拉算法

Jan 17 Python

python实现PID算法及测试的例子

Aug 08 Python

python控制台实现tab补全和清屏的例子

Aug 20 Python

Python中xml和dict格式转换的示例代码

Nov 07 Python

python两种获取剪贴板内容的方法

Nov 06 Python

python 实现控制鼠标键盘

Nov 27 Python

python中altair可视化库实例用法

Jan 26 Python

python绘制云雨图raincloud plot

Aug 05 Python

利用Pandas读取文件路径或文件名称包含中文的csv文件方法

Jul 04 #Python

使用pandas read_table读取csv文件的方法

Jul 04 #Python

使用Numpy读取CSV文件,并进行行列删除的操作方法

Jul 04 #Python

Python读取mat文件,并转为csv文件的实例

Jul 04 #Python

python实现对csv文件的列的内容读取

Jul 04 #Python

Python实现朴素贝叶斯分类器的方法详解

Jul 04 #Python

如何优雅地改进Django中的模板碎片缓存详解

Jul 04 #Python

You might like

CI框架(CodeIgniter)实现的导入、导出数据操作示例

2018/05/24 PHP

弹出广告特效代码(一个IP只弹出一次)

2007/05/11 Javascript

javascript之querySelector和querySelectorAll使用说明

2011/10/09 Javascript

javascript中的document.open()方法使用介绍

2013/10/09 Javascript

js图片处理示例代码

2014/05/12 Javascript

Bootstrap每天必学之弹出框（Popover）插件

2016/04/25 Javascript

JS在Chrome浏览器中showModalDialog函数返回值为undefined的解决方法

2016/08/03 Javascript

Jquery循环截取字符串的方法(多出的字符串处理成"...")

2016/11/28 Javascript

深入nodejs中流(stream)的理解

2017/03/27 NodeJs

深入理解React中何时使用箭头函数

2017/08/23 Javascript

手动用webpack搭建第一个ReactApp的示例

2018/04/11 Javascript

微信小程序云开发之使用云数据库

2019/05/17 Javascript

vue+高德地图写地图选址组件的方法

2019/05/18 Javascript

Vue实现数据请求拦截

2019/10/23 Javascript

JavaScript中的函数式编程详解

2020/08/22 Javascript

[48:21]林俊杰圣堂刺客超神杀戮秀

2014/10/29 DOTA

[02:28]DOTA2亚洲邀请赛 LGD战队巡礼

2015/02/03 DOTA

[52:20]VP vs VG Supermajor小组赛 B组胜者组决赛 BO3 第一场 6.2

2018/06/03 DOTA

python操作数据库之sqlite3打开数据库、删除、修改示例

2014/03/13 Python

python实现人人自动回复、抢沙发功能

2018/06/08 Python

Jupyter 无法下载文件夹如何实现曲线救国

2020/04/22 Python

Java爬虫技术框架之Heritrix框架详解

2020/07/22 Python

HTML5学习笔记之History API

2015/02/26 HTML / CSS

HTML5全屏(Fullscreen)API详细介绍

2015/04/24 HTML / CSS

全球最大的户外用品零售商之一：The House

2018/06/12 全球购物

Nike加拿大官网：Nike.com (CA)

2019/04/09 全球购物

正宗的日本零食和糖果订阅盒：Bokksu

2019/11/21 全球购物

bonprix荷兰网上商店：便宜的服装、鞋子和家居用品

2020/07/04 全球购物

英文版餐饮运营管理求职信

2013/11/06 职场文书

现金会计岗位职责

2013/12/05 职场文书

区域销售经理岗位职责

2013/12/10 职场文书

南京市纪委监察局整改方案

2014/09/16 职场文书

2016年政治理论学习心得体会

2016/01/25 职场文书

《为人民服务》教学反思

2016/02/20 职场文书

2016年学生会感恩节活动总结

2016/04/01 职场文书

python之np.argmax()及对axis=0或者1的理解

2021/06/02 Python