多语言展示
当前在线:1667今日阅读:39今日分享:10

怎么创建DataFrame

创建DataFrame和SQL风格语法详解。
方法/步骤
1

1、创建在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的RDD进行转换;还可以从Hive Table进行查询返回。1)从Spark数据源进行创建(1)查看Spark数据源进行创建的文件格式

2

(2)读取json文件创建DataFrame

3

(3)展示结果

4

2)从RDD进行转换

5

3)从Hive Table进行查询返回

6

2、 SQL风格语法(主要)1)创建一个DataFrame

7

2)对DataFrame创建一个临时表

8

3)通过SQL语句实现查询全表

9

4)结果展示

10

注意:普通临时表是Session范围内的,如果想应用范围内有效,可以使用全局临时表。使用全局临时表时需要全路径访问,如:global_temp.people

11

5)对于DataFrame创建一个全局表

12

6)通过SQL语句实现查询全表

13

3、 DSL风格语法(次要)1)创建一个DataFrame

14

2)查看DataFrame的Schema信息

15

3)只查看”name”列数据

16

4)查看”name”列数据以及”age+1”数据

17

5)查看”age”大于”21”的数据

18

6)按照”age”分组,查看数据条数

推荐信息