python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python的Django框架完成视频处理任务的教程
Apr 02 Python
KMP算法精解及其Python版的代码示例
Jun 01 Python
Python实现的矩阵类实例
Aug 22 Python
机器学习经典算法-logistic回归代码详解
Dec 22 Python
Python使用base64模块进行二进制数据编码详解
Jan 11 Python
Python 保存矩阵为Excel的实现方法
Jan 28 Python
numpy ndarray 取出满足特定条件的某些行实例
Dec 05 Python
python Jupyter运行时间实例过程解析
Dec 13 Python
离线状态下在jupyter notebook中使用plotly实例
Apr 24 Python
python打开文件的方式有哪些
Jun 29 Python
python 实现简单的计算器(gui界面)
Nov 11 Python
python中24小时制转换为12小时制的方法
Jun 18 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
通过ICQ网关发送手机短信的PHP源程序
2006/10/09 PHP
sphinx增量索引的一个问题
2011/06/14 PHP
php上传大文件设置方法
2016/04/14 PHP
JavaScript 应用类库代码
2008/06/02 Javascript
extjs DataReader、JsonReader、XmlReader的构造方法
2009/11/07 Javascript
JS input文本框禁用右键和复制粘贴功能的代码
2010/04/15 Javascript
关于UTF-8的客户端用AJAX方式获取GB2312的服务器端乱码问题的解决办法
2010/11/30 Javascript
javascript中length属性的探索
2011/07/31 Javascript
jQuery LigerUI 使用教程入门篇
2012/01/18 Javascript
javascript读取Xml文件做一个二级联动菜单示例
2014/03/17 Javascript
js css 实现遮罩层覆盖其他页面元素附图
2014/09/22 Javascript
简述JavaScript的正则表达式中test()方法的使用
2015/06/16 Javascript
jquery带有索引按钮且自动轮播切换特效代码分享
2015/09/15 Javascript
js中不同的height, top的区别对比
2015/09/24 Javascript
JS更改select内option属性的方法
2015/10/14 Javascript
深入解析JavaScript中的arguments对象
2016/06/12 Javascript
原生js实现轮播图
2017/02/27 Javascript
vue组件中点击按钮后修改输入框的状态实例代码
2017/04/14 Javascript
ES6新特性五:Set与Map的数据结构实例分析
2017/04/21 Javascript
Angular 2.0+ 的数据绑定的实现示例
2017/08/09 Javascript
vuex 项目结构目录及一些简单配置介绍
2018/04/08 Javascript
使用React手写一个对话框或模态框的方法示例
2019/04/25 Javascript
js实现图片上传到服务器和回显
2020/01/19 Javascript
浅析Vue 中的 render 函数
2020/02/28 Javascript
python中urllib.unquote乱码的原因与解决方法
2017/04/24 Python
python集合常见运算案例解析
2019/10/17 Python
python爬虫开发之urllib模块详细使用方法与实例全解
2020/03/09 Python
德国游戏机商店:Konsolenkost
2019/12/08 全球购物
银行个人求职自荐信范文
2013/12/16 职场文书
消防安全汇报材料
2014/02/08 职场文书
学生会竞选演讲稿纪检部
2014/08/25 职场文书
幼儿园教师节演讲稿
2014/09/03 职场文书
2014机关干部学习“焦裕禄精神”思想汇报
2014/09/19 职场文书
2015年中学总务处工作总结
2015/07/22 职场文书
教您:房贷工资收入证明应该怎么写?
2019/08/19 职场文书