如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息
Apr 25 Python
Python中的filter()函数的用法
Apr 27 Python
Python实现自定义函数的5种常见形式分析
Jun 16 Python
python批量获取html内body内容的实例
Jan 02 Python
python实现矩阵打印
Mar 02 Python
Python Subprocess模块原理及实例
Aug 26 Python
Python列表解析操作实例总结
Feb 26 Python
Python实现汇率转换操作
May 03 Python
使用python修改文件并立即写回到原始位置操作(inplace读写)
Jun 28 Python
深入分析python 排序
Aug 24 Python
python 利用zmail库发送邮件
Sep 11 Python
利用python为PostgreSQL的表自动添加分区
Jan 18 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录的详细介绍
2013/06/18 PHP
php实现的后台表格分页功能示例
2017/10/23 PHP
关于document.cookie的使用javascript
2008/04/11 Javascript
中文字符串截取的js函数代码
2013/04/17 Javascript
node.js require() 源码解读
2015/12/13 Javascript
Bootstrap每天必学之滚动监听
2016/03/16 Javascript
JS表格组件神器bootstrap table详解(强化版)
2016/05/26 Javascript
JS把内容动态插入到DIV的实现方法
2016/07/19 Javascript
利用jQuery对无序列表排序的简单方法
2016/10/16 Javascript
Javascript es7中比较实用的两个方法示例
2017/07/21 Javascript
JS中封装axios来管控api的2种方式
2019/09/11 Javascript
[06:16]《DAC最前线》之地区预选赛全面回顾
2015/01/19 DOTA
[42:32]完美世界DOTA2联赛PWL S2 LBZS vs FTD.C 第二场 11.27
2020/12/01 DOTA
浅谈python内置变量-reversed(seq)
2017/06/21 Python
python 连接sqlite及简单操作
2017/06/30 Python
深入学习Python中的上下文管理器与else块
2017/08/27 Python
pandas 获取季度,月度,年度首尾日期的方法
2018/04/11 Python
python中的print()输出
2019/04/12 Python
给大家整理了19个pythonic的编程习惯(小结)
2019/09/25 Python
运行tensorflow python程序,限制对GPU和CPU的占用操作
2020/02/06 Python
python 在右键菜单中加入复制目标文件的有效存放路径(单斜杠或者双反斜杠)
2020/04/08 Python
Python接口开发实现步骤详解
2020/04/26 Python
python 3.8.3 安装配置图文教程
2020/05/21 Python
如何解决cmd运行python提示不是内部命令
2020/07/01 Python
python自动化发送邮件实例讲解
2021/01/04 Python
CSS3色彩模式有哪些?CSS3 HSL色彩模式的定义
2016/04/26 HTML / CSS
印度婴儿用品在线商店:Firstcry.com
2016/12/05 全球购物
英国天然保健品网站:Simply Supplements
2017/03/22 全球购物
精选干货:Java精选笔试题附答案
2014/01/18 面试题
会计与审计专业大专生求职信
2013/10/03 职场文书
个人评价范文分享
2014/01/11 职场文书
冬季安全检查方案
2014/05/23 职场文书
法律意见书范文
2015/05/20 职场文书
Python使用OpenCV和K-Means聚类对毕业照进行图像分割
2021/06/11 Python
浅谈Python中对象是如何被调用的
2022/04/06 Python
Python中的matplotlib绘制百分比堆叠柱状图,并为每一个类别设置不同的填充图案
2022/04/20 Python