如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
django模型中的字段和model名显示为中文小技巧分享
Nov 18 Python
Python cookbook(数据结构与算法)根据字段将记录分组操作示例
Mar 19 Python
Python在图片中插入大量文字并且自动换行
Jan 02 Python
Python 通过打码平台实现验证码的实现
May 13 Python
python pygame实现方向键控制小球
May 17 Python
python导入pandas具体步骤方法
Jun 23 Python
python3安装crypto出错及解决方法
Jul 30 Python
关于Numpy中的行向量和列向量详解
Nov 30 Python
Python 剪绳子的多种思路实现(动态规划和贪心)
Feb 24 Python
Python Scrapy图片爬取原理及代码实例
Jun 12 Python
python能否java成为主流语言吗
Jun 22 Python
使用Dajngo 通过代码添加xadmin用户和权限(组)
Jul 03 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
深入php self与$this的详解
2013/06/08 PHP
基于php实现七牛抓取远程图片
2015/12/01 PHP
CI框架教程之优化验证码机制详解【验证码辅助函数】
2019/04/16 PHP
js静态作用域的功能。
2006/12/25 Javascript
JavaScript 打地鼠游戏代码说明
2010/10/12 Javascript
Javascript基础教程之数组 array
2015/01/18 Javascript
15款jQuery分布引导插件分享
2015/02/04 Javascript
跟我学习javascript的严格模式
2015/11/16 Javascript
BootStrap Validator使用注意事项(必看篇)
2016/09/28 Javascript
jQuery 的 ready()的纯js替代方法
2016/11/20 Javascript
使用React代码动态生成栅格布局的方法
2020/05/24 Javascript
详解用js代码触发dom事件的实现方案
2020/06/10 Javascript
解决vue组件销毁之后计时器继续执行的问题
2020/07/21 Javascript
原生JavaScript实现刮刮乐
2020/09/29 Javascript
深入理解Python中的内置常量
2017/05/20 Python
Python图片转换成矩阵,矩阵数据转换成图片的实例
2018/07/02 Python
初探利用Python进行图文识别(OCR)
2019/02/26 Python
详解python中递归函数
2019/04/16 Python
Python中logging日志库实例详解
2020/02/19 Python
如何查看Django ORM执行的SQL语句的实现
2020/04/20 Python
详解css3中 text-fill-color属性
2019/07/08 HTML / CSS
百联网上商城:i百联
2017/01/28 全球购物
美国鲜花递送:UrbanStems
2021/01/04 全球购物
医科大学生的自我评价
2013/12/04 职场文书
外贸业务员求职信范文
2013/12/12 职场文书
商场中秋节活动方案
2014/02/07 职场文书
人事文员岗位职责
2014/02/16 职场文书
学习十八大报告感言
2014/02/28 职场文书
新农村建设典型材料
2014/05/31 职场文书
校园活动策划方案
2014/06/13 职场文书
法院四风对照检查材料思想汇报
2014/10/06 职场文书
再婚婚前财产协议书范本
2014/10/19 职场文书
2014年置业顾问工作总结
2014/11/17 职场文书
广告业务员岗位职责
2015/02/13 职场文书
集团财务总监岗位职责
2015/04/03 职场文书
企业开发CSS命名BEM代码规范实践
2022/02/12 HTML / CSS