数据库 SQL Server

Spark SQL 2.4.8 操作 Dataframe的两种方式

Posted in SQL Server onOctober 16, 2021

一、测试数据

7369,SMITH,CLERK,7902,1980/12/17,800,20
7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30
7566,JONES,MANAGER,7839,1981/4/2,2975,20
7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981/5/1,2850,30
7782,CLARK,MANAGER,7839,1981/6/9,2450,10
7788,SCOTT,ANALYST,7566,1987/4/19,3000,20
7839,KING,PRESIDENT,1981/11/17,5000,10
7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30
7876,ADAMS,CLERK,7788,1987/5/23,1100,20
7900,JAMES,CLERK,7698,1981/12/3,9500,30
7902,FORD,ANALYST,7566,1981/12/3,3000,20
7934,MILLER,CLERK,7782,1982/1/23,1300,10

二、创建DataFrame

方式一：DSL方式操作

实例化SparkContext和SparkSession对象
利用StructType类型构建schema，用于定义数据的结构信息
通过SparkContext对象读取文件，生成RDD
将RDD[String]转换成RDD[Row]
通过SparkSession对象创建dataframe
完整代码如下：

package com.scala.demo.sql

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

object Demo01 {
  def main(args: Array[String]): Unit = {
    // 1.创建SparkContext和SparkSession对象
    val sc = new SparkContext(new SparkConf().setAppName("Demo01").setMaster("local[2]"))
    val sparkSession = SparkSession.builder().getOrCreate()

    // 2. 使用StructType来定义Schema
    val mySchema = StructType(List(
      StructField("empno", DataTypes.IntegerType, false),
      StructField("ename", DataTypes.StringType, false),
      StructField("job", DataTypes.StringType, false),
      StructField("mgr", DataTypes.StringType, false),
      StructField("hiredate", DataTypes.StringType, false),
      StructField("sal", DataTypes.IntegerType, false),
      StructField("comm", DataTypes.StringType, false),
      StructField("deptno", DataTypes.IntegerType, false)
    ))
    // 3. 读取数据
    val empRDD = sc.textFile("file:///D:\\TestDatas\\emp.csv")

    // 4. 将其映射成ROW对象
    val rowRDD = empRDD.map(line => {
      val strings = line.split(",")
      Row(strings(0).toInt, strings(1), strings(2), strings(3), strings(4), strings(5).toInt,strings(6), strings(7).toInt)
    })

    // 5. 创建DataFrame
    val dataFrame = sparkSession.createDataFrame(rowRDD, mySchema)

    // 6. 展示内容 DSL
	dataFrame.groupBy("deptno").sum("sal").as("result").sort("sum(sal)").show()
  }
}

结果如下：

Spark SQL 2.4.8 操作 Dataframe的两种方式

方式二：SQL方式操作

实例化SparkContext和SparkSession对象
创建case class Emp样例类，用于定义数据的结构信息
通过SparkContext对象读取文件，生成RDD[String]
将RDD[String]转换成RDD[Emp]
引入spark隐式转换函数（必须引入）
将RDD[Emp]转换成DataFrame
将DataFrame注册成一张视图或者临时表
通过调用SparkSession对象的sql函数，编写sql语句
停止资源
具体代码如下：

package com.scala.demo.sql

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

// 0. 数据分析
// 7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
// 1. 定义Emp样例类
case class Emp(empNo:Int,empName:String,job:String,mgr:String,hiredate:String,sal:Int,comm:String,deptNo:Int)

object Demo02 {
  def main(args: Array[String]): Unit = {
    // 2. 读取数据将其映射成Row对象
    val sc = new SparkContext(new SparkConf().setMaster("local[2]").setAppName("Demo02"))
    val mapRdd = sc.textFile("file:///D:\\TestDatas\\emp.csv")
      .map(_.split(","))

    val rowRDD:RDD[Emp] = mapRdd.map(line => Emp(line(0).toInt, line(1), line(2), line(3), line(4), line(5).toInt, line(6), line(7).toInt))

    // 3。创建dataframe
    val spark = SparkSession.builder().getOrCreate()
    // 引入spark隐式转换函数
    import spark.implicits._
    // 将RDD转成Dataframe
    val dataFrame = rowRDD.toDF

    // 4.2 sql语句操作
    // 1、将dataframe注册成一张临时表
    dataFrame.createOrReplaceTempView("emp")
    // 2. 编写sql语句进行操作
    spark.sql("select deptNo,sum(sal) as total from emp group by deptNo order by total desc").show()

    // 关闭资源
    spark.stop()
    sc.stop()
  }
}

结果如下：

Spark SQL 2.4.8 操作 Dataframe的两种方式

到此这篇关于Spark SQL 2.4.8 操作 Dataframe的两种方式的文章就介绍到这了,更多相关Spark SQL 操作 Dataframe内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Spark SQL 2.4.8 操作 Dataframe的两种方式

- Author -

若兰幽竹

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

SQL Server 相关文章推荐

SQL Server——索引+基于单表的数据插入与简单查询【1】

Apr 05 SQL Server

【HBU】数据库第四周单表查询

Apr 05 SQL Server

SQLServer2019 数据库环境搭建与使用的实现

Apr 08 SQL Server

SqlServer 垂直分表(减少程序改动)

Apr 16 SQL Server

SQLServer之常用函数总结详解

Aug 30 SQL Server

Sql Server 行数据的某列值想作为字段列显示的方法

Apr 20 SQL Server

使用 MybatisPlus 连接 SqlServer 数据库解决 OFFSET 分页问题

Apr 22 SQL Server

SQL Server使用T-SQL语句批处理

May 20 SQL Server

SQL SERVER中的流程控制语句

May 25 SQL Server

SQL Server删除表中的重复数据

May 25 SQL Server

一次SQL查询优化原理分析(900W+数据从17s到300ms)

Jun 10 SQL Server

Windows环境下实现批量执行Sql文件

万能密码的SQL注入漏洞其PHP环境搭建及防御手段

Sep 04 #SQL Server

sql server删除前1000行数据的方法实例

Aug 30 #SQL Server

SQLServer之常用函数总结详解

Aug 30 #SQL Server

SQL写法--行行比较

Aug 23 #SQL Server

SQL语句中JOIN的用法场景分析

sql通过日期判断年龄函数的示例代码

Jul 16 #SQL Server

Spark SQL 2.4.8 操作 Dataframe的两种方式

目录

一、测试数据

二、创建DataFrame

方式一：DSL方式操作

方式二：SQL方式操作