编程 Python

Python连接Hadoop数据中遇到的各种坑(汇总)

Posted in Python onApril 14, 2020

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。（当然随着学习过程的进展，现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境），当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通，本来认为很容易的一项工作，没有想到竟然遇到各种坑，花费了整整半天时间。后来也在网上看到大家在咨询相同的问题，但是真正解决这个问题的帖子又几乎没有，所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总，然后与大家进行分享，以尽量避免大家花费宝贵的时间。

（说明一下：这篇文章中的各种坑的解决，翻阅了网上无数的帖子，最好一GIT上面一个帖子的角落里面带了这么一句，否则很容易翻船。但是由于帖子太多，所以我就不一一帖出来了）

首先是选组件，我选择的是使用：impala+Python3.7来连接Hadoop数据库，如果你不是的话，就不要浪费宝贵时间继续阅读了。

执行的代码如下：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')
cursor = conn.cursor()
#其中xxxx是表名，为了不涉及到公司的信息，我把表名隐藏掉了，大家自己换成自己数据库表名
cursor.execute('select * From xxxx')
print(cursor.description) # prints the result set's schema
for rowData in cursor.fetchall():
  print(rowData)
conn.close()

坑一：提示语法错误

现象：

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py
Traceback (most recent call last):
File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module>
    import impala.dbapi as ipdb
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/dbapi.py", line 28, in <module>
    import impala.hiveserver2 as hs2
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/hiveserver2.py", line 340
    async=True)

解决办法：将参数async全部修改为“async_”（当然这个可以随便，只要上下文一致，并且不是关键字即可），原因：在Python3.0中，已经将async标为关键词，如果再使用async做为参数，会提示语法错误；应该包括以下几个地方：

#hiveserver2.py文件338行左右
op = self.session.execute(self._last_operation_string,
                 configuration,
                 async_=True)
#hiveserver2.py文件1022行左右
def execute(self, statement, configuration=None, async_=False):
  req = TExecuteStatementReq(sessionHandle=self.handle,
                statement=statement,
                confOverlay=configuration,
                runAsync=async_)

坑二：提供的Parser.py文件有问题，加载的时候会报错

解决办法：

#根据网上的意见对原代码进行调整
elif url_scheme in ('c', 'd', 'e', 'f'):
  with open(path) as fh:
    data = fh.read()
elif url_scheme in ('http', 'https'):
  data = urlopen(path).read()
else:
  raise ThriftParserError('ThriftPy does not support generating module '
              'with path in protocol \'{}\''.format(
                url_scheme))

以上的坑一、坑二建议你直接修改。这两点是肯定要调整的；

坑三：上面的两个问题处理好之后，继续运行，会报如下错误：

TProtocolException: TProtocolException(type=4)

解决办法：

原因是由于connect方法里面没有增加参数：auth_mechanism='PLAIN，修改如下所示：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')`

坑四：问题三修改好之后，继续运行程序，你会发现继续报错：

AttributeError: 'TSocket' object has no attribute 'isOpen'

解决办法：

由于是thrift-sasl的版本太高了(0.3.0)，故将thrift-sasl的版本降级到0.2.1

pip uninstall thrift-sasl
pip install thrift-sasl==0.2.1

坑五：处理完这个问题后，继续运行，继续报错（这个时间解决有点快崩溃的节奏了，但是请坚持住，其实你已经很快接近最后结果了）：

thriftpy.transport.TTransportException: TTransportException(type=1, message="Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'")

解决办法：这个是最麻烦的，也是目前最难找到解决办法的。

I solved the issue, had to uninstall the package SASL and install PURE-SASL, when impyla can´t find the sasl package it works with pure-sasl and then everything goes well.

主要原因其实还是因为sasl和pure-sasl有冲突，这种情况下，直接卸载sasl包就可能了。

pip uninstall SASL

坑六：但是执行完成，继续完成，可能还是会报错：

TypeError: can't concat str to bytes

定位到错误的最后一条，在init.py第94行（标黄的部分）

header = struct.pack(">BI", status, len(body))
#按照网上的提供的办法增加对BODY的处理
if (type(body) is str):
 body = body.encode()
self._trans.write(header + body)
self._trans.flush()

经过以上步骤，大家应该可以连接Hive库查询数据，应该是不存在什么问题了。

最后总结一下，连接Hadoop数据库中各种依赖包，请大家仔细核对一下依赖包（最好是依赖包相同，也就是不多不少[我说的是相关的包]，这样真的可以避免很多问题的出现）

序号	包名	版本号	安装命令行
1	pure_sasl	0.5.1	pip install pure_sasl==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
2	thrift	0.9.3	pip install thrift==0.9.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
3	bitarray	0.8.3	pip install bitarray==0.8.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
4	thrift_sasl	0.2.1	pip install thrift_sasl==0.2.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
5	thriftpy	0.3.9	pip install thriftpy==0.3.9 -i https://pypi.tuna.tsinghua.edu.cn/simple
6	impyla	0.14.1	pip install impyla==0.14.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

建议按顺序安装，我这边之前有依赖包的问题，但是最终我是通过conda进行安装的。
其中在安装thriftpy、thrift_sasl、impyla报的时候报错，想到自己有conda，直接使用conda install，会自动下载依赖的包，如下所示（供没有conda环境的同学参考）

package	build	size
ply-3.11	py37_0	80 KB
conda-4.6.1	py37_0	1.7 MB
thriftpy-0.3.9	py37h1de35cc_2	171 KB

祝您好运！如果在实际过程中还是遇到各种各样的问题，请你留言。

最后有一点提示：

SQL里面不要带分号，否则会报错。但是这个就不是环境问题了。报错如下：

impala.error.HiveServer2Error: Error while compiling statement: FAILED: ParseException line 2:83 cannot recogniz

到此这篇关于Python连接Hadoop数据中遇到的各种坑(汇总)的文章就介绍到这了,更多相关Python连接Hadoop内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python连接Hadoop数据中遇到的各种坑(汇总)

- Author -

wx0628

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python爬虫模拟登录带验证码网站

Jan 22 Python

Python 类与元类的深度挖掘 I【经验】

May 06 Python

Python 爬虫学习笔记之正则表达式

Sep 21 Python

用Python删除本地目录下某一时间点之前创建的所有文件的实例

Dec 14 Python

网红编程语言Python将纳入高考你怎么看?

Jun 07 Python

python numpy实现文件存取的示例代码

May 26 Python

python实现计算器功能

Oct 31 Python

基于python及pytorch中乘法的使用详解

Dec 27 Python

python 服务器运行代码报错ModuleNotFoundError的解决办法

Sep 16 Python

python 逆向爬虫正确调用 JAR 加密逻辑

Jan 12 Python

Pandas直接读取sql脚本的方法

Jan 21 Python

python Protobuf定义消息类型知识点讲解

Mar 02 Python

jupyter notebook 调用环境中的Keras或者pytorch教程

Apr 14 #Python

Python用5行代码实现批量抠图的示例代码

Apr 14 #Python

在jupyter notebook中调用.ipynb文件方式

Apr 14 #Python

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

Apr 14 #Python

Python使用pyyaml模块处理yaml数据

Apr 14 #Python

Jupyter Notebook打开任意文件夹操作

Apr 14 #Python

Python requests模块cookie实例解析

Apr 14 #Python

You might like

关于BIG5-HKSCS的解决方法

2007/03/20 PHP

php发送post请求的三种方法

2014/02/11 PHP

Laravel框架学习笔记（一）环境搭建

2014/10/15 PHP

46 个非常有用的 PHP 代码片段

2016/02/16 PHP

PHP删除数组中特定元素的两种方法

2019/02/28 PHP

Linux下源码包安装Swoole及基本使用操作图文详解

2019/04/02 PHP

php适配器模式简单应用示例

2019/10/23 PHP

修改发贴的编辑功能

2007/03/07 Javascript

基于jQuery架构javascript基础体系

2011/01/01 Javascript

JavaScript获取多个数组的交集简单实例

2013/11/11 Javascript

JavaScript使ifram跨域相互访问及与PHP通信的实例

2016/03/03 Javascript

利用jQuery插件imgAreaSelect实现图片上传裁剪（同步显示图像位置信息）

2016/12/02 Javascript

详解JS异步加载的三种方式

2017/03/07 Javascript

微信小程序 MD5的方法详解及实例代码

2017/03/10 Javascript

js获取地址栏参数的两种方法

2017/06/27 Javascript

js实现带进度条提示的多视频上传功能

2020/12/13 Javascript

让你彻底掌握es6 Promise的八段代码

2017/07/26 Javascript

详解webpack与SPA实践之开发环境搭建

2017/12/18 Javascript

JavaScript实现图片放大镜效果

2019/06/27 Javascript

VUE项目中加载已保存的笔记实例方法

2019/09/14 Javascript

ant-design表单处理和常用方法及自定义验证操作

2020/10/27 Javascript

vue 实现图片懒加载功能

2020/12/31 Vue.js

Python中暂存上传图片的方法

2015/02/18 Python

Python中特殊函数集锦

2015/07/27 Python

python实现周期方波信号频谱图

2018/07/21 Python

解决Python运行文件出现out of memory框的问题

2018/12/03 Python

Python配置pip国内镜像源的实现

2020/08/20 Python

总经理岗位职责范本

2014/02/02 职场文书

培训专员岗位职责

2014/02/26 职场文书

高中军训感想300字

2014/03/04 职场文书

违反交通安全法检讨书

2014/10/24 职场文书

2015年重阳节慰问信

2015/03/23 职场文书

交通事故案件代理词

2015/05/23 职场文书

2016年安全生产先进个人事迹材料

2016/02/29 职场文书

2016年第十四个公民道德宣传日活动总

2016/04/01 职场文书

苹果发布了MagSafe固件更新，可以不外接电源实现最高7.5W充电

2022/04/21 数码科技