7.Spark SQL

阅读原文时间：2023年07月09日阅读：3

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

　　SparkSQL出现是因为关系数据库已经不能满足各种在大数据时代新增的用户需求。首先，用户需要在不同的结构化和非结构化数据中执行各种操作。其次，用户需要执行像机器学习和图像处理等等高级分析，在实际应用中，也经常需要融合关系查询和分析复杂算法。而SparkSQL正好可以弥补这个缺陷。

起源

　　在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。
　　Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的最大特性就是快和与Hive的完全兼容，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

发展

　　在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。
　　Databricks表示，Spark SQL将涵盖Shark的所有特性，用户可以从Shark 0.9进行无缝的升级。
　　Databricks推广的Shark相关项目一共有两个，分别是Spark SQL和新的Hive on Spark（HIVE-7292）
　　Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。

2.简述RDD 和DataFrame的联系与区别

联系：
　　1.都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利。
　　2、都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action才会运算。
　　3.都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
　　4、三者都有partition的概念。
　　5.三者有许多共同的函数，如filter，排序等。

区别：
　　RDD是分布式的java对象的集合，但是对象内部结构对于RDD而言却是不可知的。
　　DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息，相当于关系数据库中的一张表。

3.DataFrame的创建与保存

　　3.1 PySpark-DataFrame创建：

　　spark.read.text(url)

　　spark.read.json(url)

　　spark.read.format("text").load("people.txt")

　　spark.read.format("json").load("people.json")

　　描述从不同文件类型生成DataFrame的区别。
　　text文件生成的DataFrame只有value属性；而json文件生成的DataFrame会识别到文件中的键值

　　用相同的txt或json文件，同时创建RDD，比较RDD与DataFrame的区别。

　　区别：RDD是直接输出对象，DataFrame是以对象里面的的详细结构进行输出

　　3.2 DataFrame的保存
　　df.write.text(dir)

　　df.write.json(dri)

　　df.write.format("text").save(dir)

　　df.write.format("json").save(dir)

4.选择题

　　4.1单选(2分)‍关于Shark，下面描述正确的是：C
　　　　A.Shark提供了类似Pig的功能
　　　　B.Shark把SQL语句转换成MapReduce作业
　　　　C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑
　　　　D.Shark的性能比Hive差很多

　　4.2单选(2分)‏下面关于Spark SQL架构的描述错误的是：D
　　　　A.在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题
　　　 B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
　　　 C.Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

　　　　D.Spark SQL执行计划生成和优化需要依赖Hive来完成

　　4.3单选(2分)‌要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：A
　　　　A.df.write.json("people.json")
　　　　B.df.json("people.json")
　　　　C.df.write.format("csv").save("people.json")
　　　　D.df.write.csv("people.json")

　　4.4多选(3分)‎Shark的设计导致了两个问题：AC
　　　　A.执行计划优化完全依赖于Hive，不方便添加新的优化策略
　　　　B.执行计划优化不依赖于Hive，方便添加新的优化策略
　　　　C.Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使　　　　用另外一套独立维护的、打了补丁的Hive源码分支
　　　　D.Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使　　　　用另外一套独立维护的、打了补丁的Hive源码分支

　　4.5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是：AB
　　　　A.Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作
　　　　B.可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力　　　　和机器学习算法的数据处理能力
　　　　C.Spark SQL无法对各种不同的数据源进行整合
　　　　D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

　　4.6多选(3分)‌下面关于DataFrame的描述正确的是：ABCD
　　　　A.DataFrame的推出，让Spark具备了处理大规模结构化数据的能力
　　　　B.DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能
　　　　C.Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询
　　　　D.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

　　4.7多选(3分)‏要读取people.json文件生成DataFrame，可以使用下面哪些命令：AC
　　　　A.spark.read.json("people.json")
　　　　B.spark.read.parquet("people.json")
　　　　C.spark.read.format("json").load("people.json")
　　　　D.spark.read.format("csv").load("people.json")

5. PySpark-DataFrame各种常用操作
　　5.1基于df的操作：
　　打印数据 df.show()默认打印前20条数据