pandas和spark dataframe互相转换实例详解


Posted in Python onFebruary 18, 2020

这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession \
  .builder \
  .getOrCreate()
spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd
pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的,即toPandas()的方式是单机版的,所以参考breeze_lsw改成分布式版本:

import pandas as pd
def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]
  
def topas(df, n_partitions=None):
  if n_partitions is not None: df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand
  
pandas_df = topas(spark_df)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python通过pil模块将raw图片转换成png图片的方法
Mar 16 Python
Django实现组合搜索的方法示例
Jan 23 Python
Python实现带参数与不带参数的多重继承示例
Jan 30 Python
python使用插值法画出平滑曲线
Dec 15 Python
PyQt4 treewidget 选择改变颜色,并设置可编辑的方法
Jun 17 Python
Django文件存储 自己定制存储系统解析
Aug 02 Python
Python 类的魔法属性用法实例分析
Nov 21 Python
使用pyinstaller逆向.pyc文件
Dec 20 Python
Ubuntu16.04安装python3.6.5步骤详解
Jan 10 Python
图解Python中深浅copy(通俗易懂)
Sep 03 Python
Python pathlib模块使用方法及实例解析
Oct 05 Python
python的html标准库
Apr 29 Python
PyTorch中Tensor的数据统计示例
Feb 17 #Python
pytorch实现Tensor变量之间的转换
Feb 17 #Python
Macbook安装Python最新版本、GUI开发环境、图像处理、视频处理环境详解
Feb 17 #Python
PyCharm无法识别PyQt5的2种解决方法,ModuleNotFoundError: No module named 'pyqt5'
Feb 17 #Python
python识别验证码图片实例详解
Feb 17 #Python
Python pyautogui模块实现鼠标键盘自动化方法详解
Feb 17 #Python
Matplotlib使用字符串代替变量绘制散点图的方法
Feb 17 #Python
You might like
239军机修复记
2021/03/02 无线电
模仿OSO的论坛(四)
2006/10/09 PHP
深思 PHP 数组遍历的差异(array_diff 的实现)
2008/03/23 PHP
php htmlspecialchars()与shtmlspecialchars()函数的深入分析
2013/06/05 PHP
PHP错误Warning: Cannot modify header information - headers already sent by解决方法
2014/09/27 PHP
ThinkPHP表单数据智能写入create方法实例分析
2015/09/27 PHP
javascript 原型继承介绍
2011/08/30 Javascript
js解析与序列化json数据(一)json.stringify()的基本用法
2013/02/01 Javascript
ie浏览器使用js导出网页到excel并打印
2014/03/11 Javascript
对于jQuery性能的一些优化建议
2015/08/13 Javascript
Vue.js每天必学之方法与事件处理器
2016/09/06 Javascript
Jquery AJAX POST与GET之间的区别详细介绍
2016/10/17 Javascript
js实现控制textarea输入字符串的个数,鼠标按下抬起判断输入字符数
2016/10/25 Javascript
angularjs下拉框空白的解决办法
2017/06/20 Javascript
Vue通过ref父子组件拿值方法
2018/09/12 Javascript
vue动态绘制四分之三圆环图效果
2019/09/03 Javascript
python pickle 和 shelve模块的用法
2013/09/16 Python
Python中不同进制互相转换(二进制、八进制、十进制和十六进制)
2015/04/05 Python
Django中更新多个对象数据与删除对象的方法
2015/07/17 Python
解决Tensorflow安装成功,但在导入时报错的问题
2018/06/13 Python
python实现RabbitMQ的消息队列的示例代码
2018/11/08 Python
浅谈Python2之汉字编码为unicode的问题(即类似\xc3\xa4)
2019/08/12 Python
Python协程操作之gevent(yield阻塞,greenlet),协程实现多任务(有规律的交替协作执行)用法详解
2019/10/14 Python
django ajax发送post请求的两种方法
2020/01/05 Python
Jo Malone美国官网:祖玛珑香水
2017/03/27 全球购物
速卖通欧盟:Aliexpress EU
2020/08/19 全球购物
外企财务年会演讲稿
2014/01/03 职场文书
营销总监岗位职责范本
2014/02/26 职场文书
上课不认真检讨书
2014/09/17 职场文书
保密工作整改情况汇报
2014/11/06 职场文书
2014年小学图书室工作总结
2014/12/09 职场文书
2014工程部年度工作总结
2014/12/17 职场文书
谢师宴学生答谢词
2015/09/30 职场文书
高中政治教学反思
2016/02/23 职场文书
nginx里的rewrite跳转的实现
2021/03/31 Servers
Python time库的时间时钟处理
2021/05/02 Python