如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中常用检测字符串相关函数汇总
Apr 15 Python
Python常用的文件及文件路径、目录操作方法汇总介绍
May 21 Python
python处理html转义字符的方法详解
Jul 01 Python
Python中datetime模块参考手册
Jan 13 Python
python开发利器之ulipad的使用实践
Mar 16 Python
Python类的继承和多态代码详解
Dec 27 Python
Django中使用Celery的教程详解
Aug 24 Python
python write无法写入文件的解决方法
Jan 23 Python
Python判断对象是否为文件对象(file object)的三种方法示例
Apr 26 Python
python实现ssh及sftp功能(实例代码)
Mar 16 Python
在keras 中获取张量 tensor 的维度大小实例
Jun 10 Python
Python turtle实现贪吃蛇游戏
Jun 18 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
PHP Mysql编程之高级技巧
2008/08/27 PHP
php 验证码实例代码
2010/06/01 PHP
基于php下载文件的详解
2013/06/02 PHP
解析php取整的几种方式
2013/06/25 PHP
php 地区分类排序算法
2013/07/01 PHP
PHP封装的PDO数据库操作类实例
2017/06/21 PHP
ThinkPHP框架获取最后一次执行SQL语句及变量调试简单操作示例
2018/06/13 PHP
PHP中的self关键字详解
2019/06/23 PHP
js跨浏览器实现将字符串转化为xml对象的方法
2013/09/25 Javascript
Jquery动态添加及删除页面节点元素示例代码
2014/06/16 Javascript
浅析javascript中的DOM
2015/03/01 Javascript
Javascript基础_标记文字的实现方法
2016/06/14 Javascript
Javascript中的数组常用方法解析
2016/06/17 Javascript
JS中绑定事件顺序(事件冒泡与事件捕获区别)
2017/01/24 Javascript
简单实现js鼠标跟随效果
2020/08/02 Javascript
总结javascript三元运算符知识点
2018/09/28 Javascript
JS获取今天是本月第几周、本月共几周、本月有多少天、是今年的第几周、是今年的第几天的示例代码
2018/12/05 Javascript
JS实现移动端可折叠导航菜单(现代都市风)
2020/07/07 Javascript
JavaScript eval()函数定义及使用方法详解
2020/07/07 Javascript
Vue管理系统前端之组件拆分封装详解
2020/08/23 Javascript
[02:05:03]完美世界DOTA2联赛循环赛 LBZS VS Matador BO2 10.28
2020/10/28 DOTA
Python爬虫抓取代理IP并检验可用性的实例
2018/05/07 Python
Python中反射和描述器总结
2018/09/23 Python
Python3 安装PyQt5及exe打包图文教程
2019/01/08 Python
tensorflow使用range_input_producer多线程读取数据实例
2020/01/20 Python
python GUI库图形界面开发之PyQt5打印控件QPrinter详细使用方法与实例
2020/02/28 Python
parser.add_argument中的action使用
2020/04/20 Python
五分钟学会怎么用python做一个简单的贪吃蛇
2021/01/12 Python
HTML5 Canvas概述
2009/08/26 HTML / CSS
市委常委班子党的群众路线教育实践活动整改措施
2014/10/02 职场文书
科学育儿宣传标语
2014/10/08 职场文书
幼儿教师辞职信
2015/02/27 职场文书
个人工作表现自我评价
2015/03/06 职场文书
医院党建工作总结2015
2015/05/26 职场文书
平凡的世界读书笔记
2015/06/25 职场文书
爱国主题班会教案
2015/08/14 职场文书