解决hive中导入text文件遇到的坑


Posted in Python onApril 07, 2021

今天帮一同学导入一个excel数据,我把excel保存为txt格式,然后建表导入,失败!分隔符格式不匹配,无法导入!!!!怎么看两边都是\t,怎么不匹配呢?

做为程序员,最不怕的就是失败,因为我们有一颗勇敢的心!再来!又特么失败。。。

想了好久,看看了看我的表格式,我犯了一个好低级的错误:

hive表的存储格式设置为了orcfile!!!

众所周知:orcfile为压缩格式,可以节约大量存储空间,但orc还有个特点就是不能直接load数据!要想load数据,我们要建一个存储格式为textfile的中间表,然后再把数据抽取过去。因为这个错误太简单,网上有相关科普,因此很少有把它当错误写出来。遇到问题的朋友们可能要走些弯路,我来补个漏~~~~~~

举个栗子:

1.首先,导出excel表格为txt格式,(这个过程不再赘述,网上教程一大把)。

123,小明,666,1990-09-23 12:00:18
256,小伙,555,1989-10-06 03:57:32
142,小兰,444,1992-07-04 05:05:45

2.在hive中创建表模型:

CREATE TABLE IF NOT EXISTS STUDENTS
(
ID INT COMMENT'学生',
SNAME STRING COMMENT '姓名',
SCORE INT COMMENT '得分',
STIME STRING COMMENT '考试时间'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS ORCFILE;

3.创建临时表(中间表):

CREATE TABLE IF NOT EXISTS STUDENTS_TMP
(
ID INT COMMENT'学生',
SNAME STRING COMMENT '姓名',
SCORE INT COMMENT '得分',
STIME STRING COMMENT '考试时间'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

与目标表只有名称和存储格式不同,其他都相同。

4.load 数据到临时表:

load data local inpath '/export/data/1.txt' into table students_tmp;

5.将数据导入目标表:

insert overwrite table students select * from students_tmp;

6.然后查看表数据,大功造成:

hive > select * from students;
OK
123 小明 666 1990-09-23 12:00:18
256 小伙 555 1989-10-06 03:57:32
142 小兰 444 1992-07-04 05:05:45
Time taken: 0.26 seconds, Fetched: 3 row(s)

其他存储格式如 SEQUENCEFILE、PARQUET 等,也要选存储为textfile格式,然后抽入目标表。

一定要按照导出格式的分隔符建表,不然load数据必然出错或全是null;

excel导出格式:

格式 分隔符 中文名称
text \t  制表符
csv , 逗号

7.还要注意一点是我们从excel导出的文件格式是UTF-8 (无论是txt还是csv都是这个格式,都需要转码),我们需要把它转成utf-8才能Load。

所以在load之前,我们一般会采取两种办法:

1. 在文本编辑器中进行转码,带不带bom关系不大,然后上传;

2.在文件所在本地目录下执行以下命令转码:

piconv -f UTF-8 -t UTF-8 1.txt > 2.txt

注意,在本地目录下命令转码会改变文件名,因为此命令会把所文件写入到另一个文件,并清空原文件内容,如果我们不改名,文件内容会完全丢失。所以,我们Load的时候一定要选择修改后的文件名哦。

示例:

转码前数据:

hive> select * from students;
OK
112	��	35	2017/8/19 15:30
113	����	45	
114	³��	55	2017/8/21 15:30
115	����	NULL	
116	������	75	2017/8/23 15:30
117	������	85	2017/8/24 15:30
118	�˽�	NULL	2017/8/25 15:30
119	������	90	
120	СѾ	NULL	2017/8/27 15:30
121	����	80	2017/8/28 15:30
122	��߸	75	
123	��«��	70	2017/8/30 15:30
124	����	NULL	2017/8/31 15:30
125	�?	NULL	
126	�峤	NULL	2017/9/2 15:30
127	˾��	50	2017/9/3 15:30
128	������	58	2017/9/4 15:30
129	����	66	2017/9/5 15:30
Time taken: 0.134 seconds, Fetched: 18 row(s)

去所在目录下转码,再Load

piconv -f UTF-8 -t UTF-8 2.csv > 3.csv
# 在hive中选择正确的文件Load:
hive> load data local inpath '/export/data/3.csv' into table students;

结果:

hive> select * from students;
OK
112	小宝	35	2017/8/19 15:30
113	王明	45	
114	鲁班	55	2017/8/21 15:30
115	苗苗	NULL	
116	少林寺	75	2017/8/23 15:30
117	体育界	85	2017/8/24 15:30
118	八戒	NULL	2017/8/25 15:30
119	周芷若	90	
120	小丫	NULL	2017/8/27 15:30
121	海宝	80	2017/8/28 15:30
122	哪吒	75	
123	葫芦娃	70	2017/8/30 15:30
124	丹枫	NULL	2017/8/31 15:30
125	电工	NULL	
126	村长	NULL	2017/9/2 15:30
127	司机	50	2017/9/3 15:30
128	王世间	58	2017/9/4 15:30
129	松鼠	66	2017/9/5 15:30
Time taken: 0.106 seconds, Fetched: 18 row(s)

补充:hive导入数据出现NULL

在把hdfs上数据迁移到hive中的表时,若出现数据位NULL,是因为没有指定列分隔符。

由于hive默认的分隔符是/u0001(Ctrl+A),为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:

hive (default)> create external table et (time BIGINT, userid string, content string, urlrank int, urlnum int, url string)
  > partitioned by (filenum int) 
  > row format delimited fields terminated by '\t';

上面创建的是外部表,“导入”数据时可以用load,但若不想进行移动数据,就用命令alter来进行指向:

alter table et add partition (filenum=1) location '/input/SogouQueryLog/file1';

注意location后面跟的地址必须是个目录,若不是,可以用hdfs fs -mv src dest 进行移动数据:

hadoop fs -mv /input/SogouQueryLog/querylog_1 /input/SogouQueryLog/file1

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方,望不吝赐教。

Python 相关文章推荐
django接入新浪微博OAuth的方法
Jun 29 Python
Python线程创建和终止实例代码
Jan 20 Python
windows环境下tensorflow安装过程详解
Mar 30 Python
PyCharm代码提示忽略大小写设置方法
Oct 28 Python
python如何解析配置文件并应用到项目中
Jun 27 Python
Django中提示消息messages的设置方式
Nov 15 Python
python实现名片管理器的示例代码
Dec 17 Python
Python 调用有道翻译接口实现翻译
Mar 02 Python
Tensorflow tf.tile()的用法实例分析
May 22 Python
利用python实现平稳时间序列的建模方式
Jun 03 Python
Python高并发解决方案实现过程详解
Jul 31 Python
详解python对象之间的交互
Sep 29 Python
python - asyncio异步编程
Apr 06 #Python
python - timeit 时间模块
Apr 06 #Python
python制作图形界面的2048游戏, 基于tkinter
python第三方网页解析器 lxml 扩展库与 xpath 的使用方法
Apr 06 #Python
python删除csv文件的行列
Apr 06 #Python
python使用pygame创建精灵Sprite
python 逐步回归算法
You might like
用PHP程序实现支持页面后退的两种方法
2008/06/30 PHP
PHP正则的Unknown Modifier错误解决方法
2010/03/02 PHP
php 网上商城促销设计实例代码
2012/02/17 PHP
php Hex RGB颜色值互换的使用
2013/05/10 PHP
PHP中header用法小结
2016/05/23 PHP
php 二维数组时间排序实现代码
2016/11/19 PHP
php命令行写shell实例详解
2018/07/19 PHP
php给数组赋值的实例方法
2019/09/26 PHP
laravel中Redis队列监听中断的分析
2020/09/14 PHP
escape、encodeURI、encodeURIComponent等方法的区别比较
2006/12/27 Javascript
Input 特殊事件onpopertychange和oninput
2009/06/17 Javascript
jquery与prototype框架的详细对比
2013/11/21 Javascript
用jquery模仿的a的title属性的例子
2014/10/22 Javascript
CSS+JS实现点击文字弹出定时自动关闭DIV层菜单的方法
2015/05/12 Javascript
举例简介AngularJS的内部语言环境
2015/06/17 Javascript
Express实现前端后端通信上传图片之存储数据库(mysql)傻瓜式教程(一)
2015/12/10 Javascript
JavaScript中this的四个绑定规则总结
2016/09/26 Javascript
遍历js中对象的属性和值的实例
2016/11/21 Javascript
node.js与C语言 实现遍历文件夹下最大的文件,并输出路径,大小
2017/01/20 Javascript
js实现上下左右弹框划出效果
2017/03/08 Javascript
基于vue的fullpage.js单页滚动插件
2017/03/20 Javascript
inner join 内联与left join 左联的实例代码
2017/09/18 Javascript
原生js封装运动框架的示例讲解
2017/10/01 Javascript
Vue2.0学习之详解Vue 组件及父子组件通信
2017/12/12 Javascript
2种在vue项目中使用百度地图的简单方法
2018/09/28 Javascript
[53:43]VP vs NewBee Supermajor 胜者组 BO3 第三场 6.5
2018/06/06 DOTA
在Python中使用模块的教程
2015/04/27 Python
如何高效使用Python字典的方法详解
2017/08/31 Python
Python获取命令实时输出-原样彩色输出并返回输出结果的示例
2019/07/11 Python
python3.x中安装web.py步骤方法
2020/06/23 Python
写一个函数,要求输入一个字符串和一个字符长度,对该字符串进行分隔
2015/07/30 面试题
大学生期末自我鉴定
2014/02/01 职场文书
中学生自我鉴定
2014/02/04 职场文书
建筑安全责任书范本
2014/07/24 职场文书
2014年学校法制宣传日活动总结
2014/11/01 职场文书
国际最新研究在陨石中发现DNA主要成分 或由陨石带来地球
2022/04/29 数码科技