pandas和spark dataframe互相转换实例详解


Posted in Python onFebruary 18, 2020

这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession \
  .builder \
  .getOrCreate()
spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd
pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的,即toPandas()的方式是单机版的,所以参考breeze_lsw改成分布式版本:

import pandas as pd
def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]
  
def topas(df, n_partitions=None):
  if n_partitions is not None: df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand
  
pandas_df = topas(spark_df)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现带验证码网站的自动登陆实现代码
Jan 12 Python
python使用装饰器和线程限制函数执行时间的方法
Apr 18 Python
python简单实例训练(21~30)
Nov 15 Python
python3爬取淘宝信息代码分析
Feb 10 Python
Python实现定时精度可调节的定时器
Apr 15 Python
python中cPickle类使用方法详解
Aug 27 Python
Python操作json的方法实例分析
Dec 06 Python
Python使用lambda表达式对字典排序操作示例
Jul 25 Python
Python+OpenCV+图片旋转并用原底色填充新四角的例子
Dec 12 Python
在django admin中配置搜索域是一个外键时的处理方法
May 20 Python
如何导出python安装的所有模块名称和版本号到文件中
Jun 05 Python
PyCharm 安装与使用配置教程(windows,mac通用)
May 12 Python
PyTorch中Tensor的数据统计示例
Feb 17 #Python
pytorch实现Tensor变量之间的转换
Feb 17 #Python
Macbook安装Python最新版本、GUI开发环境、图像处理、视频处理环境详解
Feb 17 #Python
PyCharm无法识别PyQt5的2种解决方法,ModuleNotFoundError: No module named 'pyqt5'
Feb 17 #Python
python识别验证码图片实例详解
Feb 17 #Python
Python pyautogui模块实现鼠标键盘自动化方法详解
Feb 17 #Python
Matplotlib使用字符串代替变量绘制散点图的方法
Feb 17 #Python
You might like
PHP 下载文件时自动添加bom头的方法实例
2014/01/10 PHP
PHP实现合并discuz用户
2015/08/05 PHP
JavaScript创建对象的写法
2013/08/29 Javascript
图片放大镜jquery.jqzoom.js使用实例附放大镜图标
2014/06/19 Javascript
jQuery实现列表自动滚动循环滚动展示新闻
2014/08/22 Javascript
Nginx上传文件全部缓存解决方案
2015/08/17 Javascript
JavaScript学习笔记整理_用于模式匹配的String方法
2016/09/19 Javascript
使用jsonp实现跨域获取数据实例讲解
2016/12/25 Javascript
jquery实现数字输入框
2017/02/22 Javascript
浅谈Vue.nextTick 的实现方法
2017/10/25 Javascript
使用javascript做在线算法编程
2018/05/25 Javascript
微信小程序实现自上而下字幕滚动
2018/07/14 Javascript
javascript实现弹幕墙效果
2019/11/28 Javascript
Vue-CLI 3 scp2自动部署项目至服务器的方法
2020/07/24 Javascript
vue实现按钮切换图片
2021/01/20 Vue.js
Python 文件和输入输出小结
2013/10/09 Python
python中import reload __import__的区别详解
2017/10/16 Python
python获取文件真实链接的方法,针对于302返回码
2018/05/14 Python
python如何制作缩略图
2019/04/30 Python
解决pycharm remote deployment 配置的问题
2019/06/27 Python
win8.1安装Python 2.7版环境图文详解
2019/07/01 Python
pycharm设置鼠标悬停查看方法设置
2019/07/29 Python
python3使用GUI统计代码量
2019/09/18 Python
python如何导出微信公众号文章方法详解
2020/08/31 Python
使用Canvas操作像素的方法
2018/06/14 HTML / CSS
全球性的在线时尚男装零售商:boohooMAN
2016/12/17 全球购物
几个常见的软件测试问题
2016/09/07 面试题
大课间活动制度
2014/01/18 职场文书
小区停车场管理制度
2014/01/27 职场文书
建筑横幅标语
2014/10/09 职场文书
戒赌保证书
2015/05/11 职场文书
2016年公务员六五普法心得体会
2016/01/21 职场文书
goland 清除所有的默认设置操作
2021/04/28 Golang
为什么mysql字段要使用NOT NULL
2021/05/13 MySQL
Python实现GIF动图以及视频卡通化详解
2021/12/06 Python
Mysql 如何合理地统计一个数据库里的所有表的数据量
2022/04/18 MySQL