• Introduction
  • 1. 快速上手
    • 1.1. Spark Shell
    • 1.2. 独立应用程序
    • 1.3. 开始翻滚吧!
  • 2. 编程指南
    • 2.1. 引入 Spark
    • 2.2. 初始化 Spark
    • 2.3. Spark RDDs
      • 2.3.1. 并行集合
      • 2.3.2. 外部数据集
      • 2.3.3. RDD 操作
        • 2.3.3.1. 传递函数到 Spark
        • 2.3.3.2. 使用键值对
        • 2.3.3.3. Transformations
        • 2.3.3.4. Actions
      • 2.3.4. RDD持久化
    • 2.4. 共享变量
    • 2.5. 从这里开始
  • 3. Spark Streaming
    • 3.1. 一个快速的例子
    • 3.2. 基本概念
      • 3.2.1. 关联
      • 3.2.2. 初始化StreamingContext
      • 3.2.3. 离散流
      • 3.2.4. 输入DStreams
      • 3.2.5. DStream中的转换
      • 3.2.6. DStream的输出操作
      • 3.2.7. 缓存或持久化
      • 3.2.8. Checkpointing
      • 3.2.9. 部署应用程序
      • 3.2.10. 监控应用程序
    • 3.3. 性能调优
      • 3.3.1. 减少批数据的执行时间
      • 3.3.2. 设置正确的批容量
      • 3.3.3. 内存调优
    • 3.4. 容错语义
  • 4. Spark SQL
    • 4.1. 开始
    • 4.2. 数据源
      • 4.2.1. RDDs
      • 4.2.2. parquet文件
      • 4.2.3. JSON数据集
      • 4.2.4. Hive表
    • 4.3. 性能调优
    • 4.4. 其它SQL接口
    • 4.5. 编写语言集成(Language-Integrated)的相关查询
    • 4.6. Spark SQL数据类型
  • 5. GraphX编程指南
    • 5.1. 开始
    • 5.2. 属性图
    • 5.3. 图操作符
    • 5.4. Pregel API
    • 5.5. 图构造者
    • 5.6. 顶点和边RDDs
    • 5.7. 图算法
    • 5.8. 例子
  • 6. 部署
    • 6.1. 提交应用程序
    • 6.2. 独立运行Spark
    • 6.3. 在yarn上运行Spark
  • 7. 更多文档
    • 7.1. Spark配置
      • 7.1.1. RDD 持久化
  • Published with GitBook

Spark 编程指南简体中文版

Spark 编程指南简体中文版

  • Introduction
  • 快速上手
    • Spark Shell
    • 独立应用程序
    • 开始翻滚吧!
  • 编程指南
    • 引入 Spark
    • 初始化 Spark
    • Spark RDDs
      • 并行集合
      • 外部数据集
      • RDD 操作
        • 传递函数到 Spark
        • 使用键值对
        • Transformations
        • Actions
      • RDD持久化
    • 共享变量
    • 从这里开始
  • Spark Streaming
    • 一个快速的例子
    • 基本概念
      • 关联
      • 初始化StreamingContext
      • 离散流
      • 输入DStreams
      • DStream中的转换
      • DStream的输出操作
      • 缓存或持久化
      • Checkpointing
      • 部署应用程序
      • 监控应用程序
    • 性能调优
      • 减少批数据的执行时间
      • 设置正确的批容量
      • 内存调优
    • 容错语义
  • Spark SQL
    • 开始
    • 数据源
      • RDDs
      • parquet文件
      • JSON数据集
      • Hive表
    • 性能调优
    • 其它SQL接口
    • 编写语言集成(Language-Integrated)的相关查询
    • Spark SQL数据类型
  • GraphX编程指南
    • 开始
    • 属性图
    • 图操作符
    • Pregel API
    • 图构造者
    • 顶点和边RDDs
    • 图算法
    • 例子
  • 部署
    • 提交应用程序
    • 独立运行Spark
    • 在yarn上运行Spark
  • 更多文档
    • Spark配置
      • RDD 持久化

Copyright

本文翻译自Spark 官方文档

License

本文使用的许可请查看这里