如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中处理字符串之isalpha()方法的使用
May 18 Python
Python实现PS滤镜碎片特效功能示例
Jan 24 Python
CentOS7下python3.7.0安装教程
Jul 30 Python
在Python运行时动态查看进程内部信息的方法
Feb 22 Python
Python Flask 搭建微信小程序后台详解
May 06 Python
基于python3 pyQt5 QtDesignner实现窗口化猜数字游戏功能
Jul 15 Python
Python模块的定义,模块的导入,__name__用法实例分析
Jan 07 Python
Python单链表原理与实现方法详解
Feb 22 Python
解决Pytorch自定义层出现多Variable共享内存错误问题
Jun 28 Python
Python如何给你的程序做性能测试
Jul 29 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
Jan 05 Python
Python实现批量自动整理文件
Mar 16 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
php适配器模式介绍
2012/08/14 PHP
163的邮件用phpmailer发送(实例详解)
2013/06/24 PHP
php 在windows下配置虚拟目录的方法介绍
2013/06/26 PHP
PHP用户验证和标签推荐的简单使用
2016/10/31 PHP
php 使用redis锁限制并发访问类示例
2016/11/02 PHP
thinkphp集成前端脚手架Vue-cli的教程图解
2018/08/30 PHP
jquery动态改变onclick属性导致失效的问题解决方法
2013/12/04 Javascript
js数组循环遍历数组内所有元素的方法
2014/01/18 Javascript
JS+CSS实现仿雅虎另类滑动门切换效果
2015/10/13 Javascript
老生常谈javascript的类型转换
2016/10/12 Javascript
微信小程序 图片绝对定位(背景图片)
2017/04/05 Javascript
JS实现简单的浮动碰撞效果示例
2017/12/28 Javascript
基于JavaScript实现一个简单的Vue
2018/09/26 Javascript
微信小程序如何获取地址
2019/12/24 Javascript
Nodejs环境实现socket通信过程解析
2020/07/03 NodeJs
[49:31]DOTA2-DPC中国联赛 正赛 Elephant vs LBZS BO3 第二场 1月29日
2021/03/11 DOTA
在Python的Flask框架下收发电子邮件的教程
2015/04/21 Python
Python实现读取邮箱中的邮件功能示例【含文本及附件】
2017/08/05 Python
Python实现进程同步和通信的方法
2018/01/02 Python
聊聊python中的异常嵌套
2020/09/01 Python
你可能不熟练的十个前端HTML5经典面试题
2018/07/03 HTML / CSS
日本最大化妆品和美容产品的综合口碑网站:cosme shopping
2019/08/28 全球购物
Spartoo美国:欧洲排名第一的在线时装零售商
2019/12/12 全球购物
日本最大的购物网站乐天市场国际版:Rakuten Global Market(支持中文)
2020/02/03 全球购物
Linux中如何设置Java环境变量(Ubuntu)
2016/07/24 面试题
医院后勤自我鉴定
2013/10/13 职场文书
应届生服务员求职信
2013/10/31 职场文书
工程业务员工作职责
2013/12/07 职场文书
高考标语大全
2014/06/05 职场文书
职业道德模范事迹材料
2014/08/24 职场文书
副校长竞聘演讲稿
2014/09/01 职场文书
年会主持人开场白台词
2015/05/29 职场文书
2015年教师节广播稿
2015/08/19 职场文书
七个非常实用的Python工具包总结
2021/06/15 Python
解析高可用Redis服务架构分析与搭建方案
2021/06/20 Redis
Linux、ubuntu系统下查看显卡型号、显卡信息详解
2022/04/07 Servers