如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍
Jun 10 Python
Python实现基于HTTP文件传输实例
Nov 08 Python
简单了解Python下用于监视文件系统的pyinotify包
Nov 13 Python
CentOS 6.5下安装Python 3.5.2(与Python2并存)
Jun 05 Python
Python实现登录接口的示例代码
Jul 21 Python
Python中一行和多行import模块问题
Apr 01 Python
Python 爬取携程所有机票的实例代码
Jun 11 Python
解决python通过cx_Oracle模块连接Oracle乱码的问题
Oct 18 Python
python3发送邮件需要经过代理服务器的示例代码
Jul 25 Python
Python爬取爱奇艺电影信息代码实例
Nov 26 Python
pytorch 图像中的数据预处理和批标准化实例
Jan 15 Python
python 负数取模运算实例
Jun 03 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
php利用curl抓取新浪微博内容示例
2014/04/27 PHP
解决PHP 7编译安装错误:cannot stat ‘phar.phar’: No such file or directory
2017/02/25 PHP
php常用经典函数集锦【数组、字符串、栈、队列、排序等】
2019/08/23 PHP
jQuery表格行换色的三种实现方法
2011/06/27 Javascript
中文路径导致unitpngfix.js不正常的解决方法
2013/06/26 Javascript
js替换字符串的所有示例代码
2013/07/23 Javascript
Jquery实现图片左右自动滚动示例
2013/09/25 Javascript
jQuery Ajax异步处理Json数据详解
2013/11/05 Javascript
javascript在子页面中函数无法调试问题解决方法
2014/01/17 Javascript
Jquery attr()方法 属性赋值和属性获取详解
2016/04/15 Javascript
JS图片压缩(pc端和移动端都适用)
2017/01/12 Javascript
微信小程序实现默认第一个选中变色效果
2018/07/17 Javascript
详解Eslint 配置及规则说明
2018/09/10 Javascript
解决angular双向绑定无效果,ng-model不能正常显示的问题
2018/10/02 Javascript
Vue请求JSON Server服务器数据的实现方法
2018/11/02 Javascript
详解一个基于react+webpack的多页面应用配置
2019/01/21 Javascript
Vue从TodoList中学父子组件通信
2019/02/05 Javascript
Jquery+AJAX实现无刷新上传并重命名文件操作示例【PHP后台接收】
2020/05/29 jQuery
[01:34]DOTA2 7.22版本新增神杖效果一览(敏捷英雄篇)
2019/05/28 DOTA
python 实现上传图片并预览的3种方法(推荐)
2017/07/14 Python
django自带的server 让外网主机访问方法
2018/05/14 Python
python 编写简单网页服务器的实例
2018/06/01 Python
基于Python实现定时自动给微信好友发送天气预报
2018/10/25 Python
Pycharm2017版本设置启动时默认自动打开项目的方法
2018/10/29 Python
Python完成毫秒级抢淘宝大单功能
2019/06/06 Python
用Python实现将一张图片分成9宫格的示例
2019/07/05 Python
Python如何在单元测试中给对象打补丁
2020/08/03 Python
python hmac模块验证客户端的合法性
2020/11/07 Python
纯css3实现照片墙效果
2014/12/26 HTML / CSS
新西兰最大的品牌运动鞋购物网站:Platypus NZ
2017/10/27 全球购物
《故都的秋》教学反思
2014/04/15 职场文书
双拥工作宣传标语
2014/06/26 职场文书
五年级作文之劳动作文
2019/11/12 职场文书
Go缓冲channel和非缓冲channel的区别说明
2021/04/25 Golang
pytorch finetuning 自己的图片进行训练操作
2021/06/05 Python
Python 避免字典和元组的多重嵌套问题
2022/07/15 Python