Pyspark读取parquet数据过程解析


Posted in Python onMarch 27, 2020

parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:

可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式,linux下的pycharm执行作说明。

首先,导入库文件和配置环境:

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而,DataFrame格式数据有一些方法可以使用,例如:

1.df.first() :显示第一条数据,Row格式

print(df.first())

Pyspark读取parquet数据过程解析

2.df.columns:列名

3.df.count():数据量,数据条数

4.df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构

5.df.show():直接显示表数据;其中df.show(n) 表示只显示前n行信息

6.type(df):显数据示格式

Pyspark读取parquet数据过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的多线程端口扫描工具分享
Jan 21 Python
python函数形参用法实例分析
Aug 04 Python
Python编码类型转换方法详解
Jul 01 Python
Python 实现随机数详解及实例代码
Apr 15 Python
python实现创建新列表和新字典,并使元素及键值对全部变成小写
Jan 15 Python
在Pycharm中调试Django项目程序的操作方法
Jul 17 Python
基于keras输出中间层结果的2种实现方式
Jan 24 Python
Python常见反爬虫机制解决方案
Jun 01 Python
python属于软件吗
Jun 18 Python
Python利用Pillow(PIL)库实现验证码图片的全过程
Oct 04 Python
Python classmethod装饰器原理及用法解析
Oct 17 Python
使用OpenCV实现人脸图像卡通化的示例代码
Jan 15 Python
Python基于pyecharts实现关联图绘制
Mar 27 #Python
Python爬虫爬取杭州24时温度并展示操作示例
Mar 27 #Python
Django添加bootstrap框架时无法加载静态文件的解决方式
Mar 27 #Python
Python itertools.product方法代码实例
Mar 27 #Python
python实现图像全景拼接
Mar 27 #Python
如何在Python 游戏中模拟引力
Mar 27 #Python
Python 实现平台类游戏添加跳跃功能
Mar 27 #Python
You might like
php 不同编码下的字符串长度区分
2009/09/26 PHP
深入PHP数据加密详解
2013/06/18 PHP
解析mysql 表中的碎片产生原因以及清理
2013/06/22 PHP
一漂亮的PHP图片验证码实例
2014/03/21 PHP
PHP抽奖算法程序代码分享
2015/10/08 PHP
PHP文字转图片功能原理与实现方法分析
2017/08/31 PHP
phpinfo的知识点总结
2019/10/10 PHP
PHP中abstract(抽象)、final(最终)和static(静态)原理与用法详解
2020/06/05 PHP
javascript之Partial Application学习
2013/01/10 Javascript
jquery选择器的选择使用及性能介绍
2013/01/16 Javascript
Jquery时间验证和转换工具小例子
2013/07/01 Javascript
jQuery获取上传文件的名称的正则表达式
2015/05/21 Javascript
jQuery插件zTree实现删除树子节点的方法示例
2017/03/08 Javascript
BootStrap表单验证 FormValidation 调整反馈图标位置的实例代码
2017/05/17 Javascript
JS和Canvas实现图片的预览压缩和上传功能
2018/03/30 Javascript
jQuery实现模糊搜索功能的方法分析
2018/06/29 jQuery
JavaScript实现学生在线做题计时器功能
2018/12/05 Javascript
深入理解JS异步编程-Promise
2019/06/03 Javascript
微信小程序实现列表的横向滑动方式
2020/07/15 Javascript
python dataframe 输出结果整行显示的方法
2018/06/14 Python
Python/Django后端使用PIL Image生成头像缩略图
2019/04/30 Python
python 函数中的内置函数及用法详解
2019/07/02 Python
python机器学习实现决策树
2019/11/11 Python
python实现密码强度校验
2020/03/18 Python
python 实现端口扫描工具
2020/12/18 Python
最好的意大利皮夹克:D’Arienzo
2018/12/04 全球购物
菲律宾优惠券网站:MetroDeal
2019/04/12 全球购物
班组长安全职责
2014/01/05 职场文书
毕业典礼主持词大全
2014/03/26 职场文书
作风年建设汇报材料
2014/08/14 职场文书
2014乡党委副书记党建工作汇报材料
2014/11/02 职场文书
2015学生会文艺部工作总结
2015/04/03 职场文书
党员“一帮一”活动总结
2015/05/07 职场文书
2015年销售助理工作总结
2015/05/11 职场文书
2015年宣传思想工作总结
2015/05/22 职场文书
JavaScript流程控制(循环)
2021/12/06 Javascript