Introduction
1. 快速上手
2. 编程指南
3. Spark Streaming
4. Spark SQL
5. GraphX编程指南
6. 部署
7. 更多文档
- 7.1. Spark配置
  - 7.1.1. RDD 持久化
Published with GitBook

Spark 编程指南简体中文版

Spark SQL

Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。 SchemaRDDs由行对象组成，行对象拥有一个模式（scheme）来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。

本章的所有例子都利用了Spark分布式系统中的样本数据，可以在spark-shell中运行它们。

开始
数据源
性能调优
其它SQL接口
编写语言集成(Language-Integrated)的相关查询
Spark SQL数据类型