PyCharm搭建Spark开发环境的实现步骤


Posted in Python onSeptember 05, 2019

1.安装好JDK

下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:

  • 新建系统变量JAVA_HOME,值为Java安装路径
  • 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点)
  • 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin

在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。

2.安装Hadoop,并配置环境变量

下载hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

PyCharm搭建Spark开发环境的实现步骤

  • 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop
  • 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop
  • 在系统变量PATH中添加:D:\adasoftware\hadoop\bin
  • 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin

3.Spark环境变量配置

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。

  • 下载对应hadoop版本的spark:http://spark.apache.org/downloads.html
  • 解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7
  • 添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;
  • 新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7;

4.下载安装anaconda

anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将python加到path环境变量中。

5.在CMD中运行pyspark,出现类似下图说明安装配置正常:

PyCharm搭建Spark开发环境的实现步骤

出现这种warning是因为JDK版本为12,太高了,但是不影响运行。没有影响。

6.在pycharm中配置spark

打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”?>点击+创建新的python Configurations

PyCharm搭建Spark开发环境的实现步骤

选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

  • SPARK_HOME:Spark安装目录
  • PYTHONPATH:Spark安装目录下的Python目录

PyCharm搭建Spark开发环境的实现步骤

选择 File->setting->你的project->project structure

右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)

保存即可

7.测试是否配置成功,程序代码如下,创建一个python程序放进去就可以:

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"

# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")

try:
 from pyspark import SparkContext
 from pyspark import SparkConf

 print("Successfully imported Spark Modules")
except ImportError as e:
 print("Can not import Spark Modules", e)
 sys.exit(1)

若程序正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。

PyCharm搭建Spark开发环境的实现步骤

 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python赋值语句后逗号的作用分析
Jun 08 Python
python调用fortran模块
Apr 08 Python
深入理解python多进程编程
Jun 12 Python
一些常用的Python爬虫技巧汇总
Sep 28 Python
python爬虫入门教程--利用requests构建知乎API(三)
May 25 Python
python2 与python3的print区别小结
Jan 16 Python
使用Python获取网段IP个数以及地址清单的方法
Nov 01 Python
pytorch多进程加速及代码优化方法
Aug 19 Python
Python3 使用pillow库生成随机验证码
Aug 26 Python
python 基于opencv实现图像增强
Dec 23 Python
Python实现提取PDF简历信息并存入Excel
Apr 02 Python
Python创建SQL数据库流程逐步讲解
Sep 23 Python
浅谈Python_Openpyxl使用(最全总结)
Sep 05 #Python
python实现人工智能Ai抠图功能
Sep 05 #Python
深入了解Python在HDA中的应用
Sep 05 #Python
python urllib爬虫模块使用解析
Sep 05 #Python
详解Python3 pandas.merge用法
Sep 05 #Python
python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析
Sep 05 #Python
python爬取Ajax动态加载网页过程解析
Sep 05 #Python
You might like
Yii2框架制作RESTful风格的API快速入门教程
2016/11/08 PHP
动态加载iframe
2006/06/16 Javascript
关于二级域名下使用一级域名下的COOKIE的问题
2011/11/07 Javascript
jquery next nextAll nextUntil siblings的区别介绍
2013/10/05 Javascript
jquery实现未经美化的简洁TAB菜单效果
2015/08/28 Javascript
jQuery 监控键盘一段时间没输入
2016/04/22 Javascript
全面解析JavaScript中apply和call以及bind(推荐)
2016/06/15 Javascript
JavaScript从0开始构思表情插件
2016/07/26 Javascript
Javascript中indexOf()和lastIndexOf应用方法实例
2016/08/24 Javascript
Bootstrap模态框插入视频的实现代码
2017/06/25 Javascript
12条写出高质量JS代码的方法
2018/01/07 Javascript
vue2.0使用v-for循环制作多级嵌套菜单栏
2018/06/25 Javascript
详解关于vue-area-linkage走过的坑
2018/06/27 Javascript
150行代码带你实现微信小程序中的数据侦听
2019/05/17 Javascript
Python字符遍历的艺术
2008/09/06 Python
Python reduce()函数的用法小结
2017/11/15 Python
Python iter()函数用法实例分析
2018/03/17 Python
Python学习_几种存取xls/xlsx文件的方法总结
2018/05/03 Python
Python pandas DataFrame操作的实现代码
2019/06/21 Python
Python实现图片查找轮廓、多边形拟合、最小外接矩形代码
2020/07/14 Python
localstorage和sessionstorage使用记录(推荐)
2017/05/23 HTML / CSS
英国家庭家具、照明和花园家具购物网站:Furniture123
2018/12/31 全球购物
阿尔卡特(中国)的面试题目
2014/08/20 面试题
初一地理教学反思
2014/01/16 职场文书
优秀民警事迹材料
2014/01/29 职场文书
总经理的岗位职责
2014/02/23 职场文书
央视元宵晚会主持串词
2014/03/25 职场文书
小学生我的梦想演讲稿
2014/08/21 职场文书
自动化专业大学生职业生涯规划范文:爱拚才会赢
2014/09/12 职场文书
武夷山导游词
2015/02/03 职场文书
九年级历史教学反思
2016/02/19 职场文书
优秀员工演讲稿
2019/06/21 职场文书
处世之道:关于真诚相待的名言推荐
2019/12/02 职场文书
go 实现简易端口扫描的示例
2021/05/22 Golang
pytorch训练神经网络爆内存的解决方案
2021/05/22 Python
如何在pycharm中快捷安装pip命令(如pygame)
2021/05/31 Python