如何使用pycharm连接Databricks的步骤详解


Posted in Python onSeptember 23, 2020

在本地使用pycharm连接databricks,大致步骤如下:

首先,为了让本地环境能够识别远端的databricks集群环境,需要收集databricks的基本信息和自己databricks的token,这些信息能够让本地环境识别databricks;接着,需要使用到工具 anaconda创建一个虚拟环境,连接databricks;最后,将虚拟环境导入pycharm。

(下面的图渣渣,因为直接拖进来的)

第0步:检查

检查java版本,需要时1.8开头的版本,如果不是,请到这里下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

如何使用pycharm连接Databricks的步骤详解

第1步:收集databricks的信息

查看python版本 (还不知道怎么看,这里cluster的python版本为3.7)
查看Runtime Version

如何使用pycharm连接Databricks的步骤详解

查看cluster ulr,解析出下面信息

如何使用pycharm连接Databricks的步骤详解

生成token,点击这个小人-user setting

如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解
如何使用pycharm连接Databricks的步骤详解

最后,这是我们收集到的所有信息

如何使用pycharm连接Databricks的步骤详解

第2步:安装anaconda

如果已经安装anaconda,请略过这一步
没有安装,可以看这个教程
https://3water.com/article/196286.htm

第3步:使用anaconda创建虚拟环境

下面的参数信息,使用第一步收集的信息
打开anaconda的命令行

如何使用pycharm连接Databricks的步骤详解

创建一个3.7版本的虚拟隔离环境

conda create -n dbconnect python=3.7

如何使用pycharm连接Databricks的步骤详解

使用环境

conda activate dbconnect

如何使用pycharm连接Databricks的步骤详解

卸载pyspark,如果是新创建的环境,可以不用执行这步(这是为了确保,创建的环境不能有pyspark的包,因为会产生包的问题)

pip uninstall pyspark

如何使用pycharm连接Databricks的步骤详解

下面开始安装包,但是为了让安装速度快一些,使用清华镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

如何使用pycharm连接Databricks的步骤详解

查看是否切换到镜像

conda config --show channels

可以看到已经切换

如何使用pycharm连接Databricks的步骤详解

安装connect包,第一步中确定的run的版本为6.4,故选择6.4.* (用公司的网络,下载很慢,我用自己的热点)

pip install -U databricks-connect==6.4.*

如何使用pycharm连接Databricks的步骤详解

连接远端databricks,并输入第一步收集的相关信息

databricks-connect configure

如何使用pycharm连接Databricks的步骤详解

测试是否已经连接上:

databricks-connect test

已经在启动节点了

如何使用pycharm连接Databricks的步骤详解

查看databricks,可以看到

如何使用pycharm连接Databricks的步骤详解

第4步:pycharm导入虚拟环境

打开pycahrm,点击setting

如何使用pycharm连接Databricks的步骤详解

选择解释器,点击小齿轮的add'

如何使用pycharm连接Databricks的步骤详解

选择刚才我们创建好的dbconnect

如何使用pycharm连接Databricks的步骤详解

点击ok,可以看到已经选好了环境

如何使用pycharm连接Databricks的步骤详解

不知道为啥连接不到远端的包,我的项目还需要在本地安装一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

如何使用pycharm连接Databricks的步骤详解

在pycharm测试运行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已经启动了节点,正在运行

如何使用pycharm连接Databricks的步骤详解

到此这篇关于如何使用pycharm连接Databricks的步骤详解的文章就介绍到这了,更多相关pycharm连接Databricks内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 文件和路径操作函数小结
Nov 23 Python
利用Python的Twisted框架实现webshell密码扫描器的教程
Apr 16 Python
简单实现python爬虫功能
Dec 31 Python
python爬虫入门教程--优雅的HTTP库requests(二)
May 25 Python
浅谈Python中的私有变量
Feb 28 Python
Python logging模块用法示例
Aug 28 Python
Python使用pydub库对mp3与wav格式进行互转的方法
Jan 10 Python
对python实现合并两个排序链表的方法详解
Jan 23 Python
python2.7的flask框架之引用js&css等静态文件的实现方法
Aug 22 Python
使用pickle存储数据dump 和 load实例讲解
Dec 30 Python
Python 如何操作 SQLite 数据库
Aug 17 Python
python爬虫之利用selenium模块自动登录CSDN
Apr 22 Python
社区版pycharm创建django项目的方法(pycharm的newproject左侧没有项目选项)
Sep 23 #Python
Python3+RIDE+RobotFramework自动化测试框架搭建过程详解
Sep 23 #Python
python通过函数名调用函数的几种场景
Sep 23 #Python
Python如何执行系统命令
Sep 23 #Python
Python SMTP发送电子邮件的示例
Sep 23 #Python
python两个list[]相加的实现方法
Sep 23 #Python
python matplotlib库的基本使用
Sep 23 #Python
You might like
php正则过滤html标签、空格、换行符的代码(附说明)
2010/10/25 PHP
PHP 基于文件头的文件类型验证类函数
2012/05/01 PHP
php mysql_real_escape_string函数用法与实例教程
2013/09/30 PHP
PHP根据树的前序遍历和中序遍历构造树并输出后序遍历的方法
2017/11/10 PHP
如何解决PHP获取不到SESSION信息之一般情况
2019/10/10 PHP
一款js和css代码压缩工具[附JAVA环境配置方法]
2010/04/16 Javascript
IE6背景图片不缓存问题解决方案及图片使用策略多个方法小结
2012/05/14 Javascript
百度地图自定义控件分享
2015/03/04 Javascript
jQuery中判断对象是否存在的方法汇总
2016/02/24 Javascript
判断输入的字符串是否是日期格式的简单方法
2016/07/11 Javascript
微信JS接口大全
2016/08/25 Javascript
详解webpack多页面配置记录
2018/01/22 Javascript
vue项目部署上线遇到的问题及解决方法
2018/06/10 Javascript
微信小程序使用map组件实现路线规划功能示例
2019/01/22 Javascript
函数式编程入门实践(一)
2019/04/20 Javascript
Vue基本使用之对象提供的属性功能
2019/04/30 Javascript
详解vue 命名视图
2019/08/14 Javascript
详解javascript中var与ES6规范中let、const区别与用法
2020/01/11 Javascript
[04:46]2018年度玩家喜爱的电竞媒体-完美盛典
2018/12/16 DOTA
Python中的面向对象编程详解(下)
2015/04/13 Python
手把手教你用python抢票回家过年(代码简单)
2018/01/21 Python
python实现简单银行管理系统
2019/10/25 Python
python 发送get请求接口详解
2020/11/17 Python
Python 排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)
2020/12/14 Python
python中delattr删除对象方法的代码分析
2020/12/15 Python
非常漂亮的CSS3百叶窗焦点图动画
2016/02/24 HTML / CSS
一文彻底解决HTML5页面中长按保存图片功能
2019/06/10 HTML / CSS
The North Face北面荷兰官网:美国著名户外品牌
2019/10/16 全球购物
德国高尔夫商店:Par71.de
2020/11/29 全球购物
欢度春节标语
2014/07/01 职场文书
团队会宣传标语
2014/10/09 职场文书
2014年教研员工作总结
2014/12/23 职场文书
清洁员岗位职责
2015/02/15 职场文书
农民工工资保障承诺书
2015/05/04 职场文书
2016幼儿园教师节新闻稿
2015/11/25 职场文书
vue如何使用模拟的json数据查看效果
2022/03/31 Vue.js