如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python检查序列seq是否含有aset中项的方法
Jun 30 Python
Python基于pygame实现的弹力球效果(附源码)
Nov 11 Python
Python实现将doc转化pdf格式文档的方法
Jan 19 Python
python实现简单登陆流程的方法
Apr 22 Python
Python基于pandas实现json格式转换成dataframe的方法
Jun 22 Python
python 高效去重复 支持GB级别大文件的示例代码
Nov 08 Python
Python中输入和输出(打印)数据实例方法
Oct 13 Python
Python requests获取网页常用方法解析
Feb 20 Python
tensorflow实现残差网络方式(mnist数据集)
May 26 Python
python 使用建议与技巧分享(四)
Aug 18 Python
python3:excel操作之读取数据并返回字典 + 写入的案例
Sep 01 Python
pytorch实现线性回归以及多元回归
Apr 11 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
需要发散思维学习PHP
2009/06/29 PHP
PHP获取当前所在目录位置的方法
2014/11/26 PHP
php实现读取手机客户端浏览器的类
2015/01/09 PHP
php微信公众平台开发之获取用户基本信息
2015/08/17 PHP
php将print_r处理后的数据还原为原始数组的解决方法
2016/11/02 PHP
解决Laravel5.5下的toArray问题
2019/10/15 PHP
JavaScript 无符号右移赋值操作
2009/04/17 Javascript
JSQL 基于客户端的成绩统计实现方法
2010/05/05 Javascript
jquery通过select列表选择框对表格数据进行过滤示例
2014/05/07 Javascript
jQuery绑定事件on()与弹窗的简要概述
2016/04/27 Javascript
jQuery 3 中的新增功能汇总介绍
2016/06/12 Javascript
vue.js 初体验之Chrome 插件开发实录
2017/05/13 Javascript
Web制作验证码功能实例代码
2017/06/19 Javascript
基于JSONP原理解析(推荐)
2017/12/04 Javascript
Vue项目引进ElementUI组件的方法
2018/11/11 Javascript
用Node写一条配置环境的指令
2019/11/14 Javascript
JS+CSS实现过渡特效
2021/01/02 Javascript
[49:08]OpTic vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
Python中的高级函数map/reduce使用实例
2015/04/13 Python
Python中对象迭代与反迭代的技巧总结
2016/09/17 Python
python:socket传输大文件示例
2017/01/18 Python
详解python实现线程安全的单例模式
2018/03/05 Python
使用sklearn进行对数据标准化、归一化以及将数据还原的方法
2018/07/11 Python
Python判断是否json是否包含一个key的方法
2018/12/31 Python
python禁用键鼠与提权代码实例
2019/08/16 Python
python爬虫增加访问量的方法
2019/08/22 Python
40行Python代码实现天气预报和每日鸡汤推送功能
2020/02/27 Python
python用分数表示矩阵的方法实例
2021/01/11 Python
Pytorch 图像变换函数集合小结
2021/02/01 Python
CSS3提交意见输入框样式代码
2014/10/30 HTML / CSS
印度排名第一的蛋糕、鲜花和礼品送货:Winni
2019/08/02 全球购物
开放系统互连参考模型
2016/06/29 面试题
大班幼儿评语大全
2014/04/30 职场文书
取保候审保证书
2014/04/30 职场文书
复兴之路观后感
2015/06/02 职场文书
在校学生证明格式
2015/06/24 职场文书