编程 Python

Pyspark读取parquet数据过程解析

Posted in Python onMarch 27, 2020

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())

Pyspark读取parquet数据过程解析

2.df.columns：列名

3.df.count()：数据量，数据条数

4.df.toPandas()：从spark的DataFrame格式数据转到Pandas数据结构

5.df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

6.type(df)：显数据示格式

Pyspark读取parquet数据过程解析

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Pyspark读取parquet数据过程解析

- Author -

落日峡谷

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python语言编写电脑时间自动同步小工具

Mar 08 Python

Python3中的2to3转换工具使用示例

Jun 12 Python

Python 的类、继承和多态详解

Jul 16 Python

Windows下Anaconda的安装和简单使用方法

Jan 04 Python

深入了解Python中pop和remove的使用方法

Jan 09 Python

pandas.DataFrame 根据条件新建列并赋值的方法

Apr 08 Python

详解关于Django中ORM数据库迁移的配置

Oct 08 Python

Python XML转Json之XML2Dict的使用方法

Jan 15 Python

Tensorflow--取tensorf指定列的操作方式

Jun 30 Python

Python实现壁纸下载与轮换

Oct 19 Python

python3中celery异步框架简单使用+守护进程方式启动

Jan 20 Python

Python 第三方库 openpyxl 的安装过程

Dec 24 Python

Python基于pyecharts实现关联图绘制

Mar 27 #Python

Python爬虫爬取杭州24时温度并展示操作示例

Mar 27 #Python

Django添加bootstrap框架时无法加载静态文件的解决方式

Mar 27 #Python

Python itertools.product方法代码实例

Mar 27 #Python

python实现图像全景拼接

Mar 27 #Python

如何在Python 游戏中模拟引力

Mar 27 #Python

Python 实现平台类游戏添加跳跃功能

Mar 27 #Python