Skip to main content
 Web开发网 » 编程语言 » Python语言

基于Spark构建开放式的云计算平台第一阶段课程

2021年11月27日2360百度已收录

  在2014年6月30日到7月2日举行的Spark Summit是整个云计算大数据领域的Big Event,在会议上DataBricks公司提出了构建开放的Cloud平台,而且宣布该平台完全基于Spark,该平台功能类似于EC2,但比EC2更快、更灵活、更易用。

  构建一个开发的云服务平台,需要存储技术、计算平台、消息驱动框架和开发API架构设计等,所以我们把课程主要分为两个阶段:1,Spark技术实战;2,构建开发云平他的消息驱动框架和开放API设计实现;

  本课程是是整个系列课程的第一阶段课程,采用当今世界公认的最好的大数据技术Spark来打造开放云平台的计算框架。

  授课的案例部分

  1,主要采用Sogou和纽约时报的数据进行演示和说明;

  2,在讲授各个知识点的时候亦分别数据支撑的案例演示;

  课程介绍

  课程包含Spark的架构设计、Spark编程模型、Spark内核框架源码剖析、Spark的广播变量与累加器、Shark的原理和使用、Spark的机器学习、Spark的图计算GraphX、Spark SQL、Spark实时流处理、Spark的优化、Spark on Yarn、JobServer等Spark 1.0.0所有的核心内容

  最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计、实现和优化;

  培训对象

  1,云计算大数据从业者;

  2,Hadoop使用者;

  3,?系统架构师、系统分析师、高级程序员、资深开发人员;

  4,牵涉到大数据处理的数据中心运行、规划、设计负责人;

  5,政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

  6,高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

  7,数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

  学员基础

  了解面向对象编程;

  了解Linux的基本使用;

  了解Scala语法

  王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)

  中国目前唯一的移动互联网和云计算大数据集大成者;

  云计算大数据Spark亚太研究院院长和首席专家;

  Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

  Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

  Android架构师、高级工程师、咨询顾问、培训专家;

  通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

  致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

  国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

  HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

  超过10本的IT畅销书作者;

  培训内容

  第一天 第1堂课:Spark的架构设计

  1.1 Spark生态系统剖析

  1.2 Spark的架构设计剖析

  1.3 RDD计算流程解析

  1.4 Spark的出色容错机制

  第2堂课:Spark编程模型

  2.1 RDD

  2.2 transformation

  2.3 action

  2.4 lineage

  2.5宽依赖与窄依赖

  第3堂课:深入Spark内核

  3.1 Spark集群

  3.2 任务调度

  3.3 DAGScheduler

  3.4 TaskScheduler

  3.5 Task内部揭秘

  第4堂课:Spark的广播变量与累加器

  4.1 广播变量的机制

  4.2 广播变量使用最佳实践

  4.3 累加器的机制

  4.4 累加器使用的最佳实践

  第5堂课:Spark多语言编程

  5.1 PySpark API

  5.2 使用 Python编写Spark程序

  5.3 Java 8的函数式编程

  5.4 使用Java 8编写Spark程序

  5.5 Spark编程语言最佳选择:Scala

  5.6 用Scala演绎Spark编程艺术

  第6堂课:SparkContext解析和数据加载以及存储

  6.1 源码剖析SparkContext

  6.2 Scala、Java、Python使用SparkContext

  6.4 加载数据成为RDD

  6.5 把数据物化

  时间 內? 容 备注

  第二天 第7堂课:深入实战RDD

  7.1 DAG

  7.2 深入实战各种Scala RDD Function

  7.3 Spark Java RDD Function

  7.4 RDD的优化问题

  第8堂课:Shark的原理和使用

  8.1 Shark与Hive

  8.2 安装和配置Shark

  8.3 使用Shark处理数据

  8.4 在Spark程序中使用Shark Queries

  8.5 SharkServer

  8.6 思考Shark架构

  第9堂课:Spark的机器学习

  9.1 LinearRegression

  9.2 K-Means

  9.3 Collaborative Filtering

  第10堂课:Spark的图计算GraphX

  10.1 Table Operators

  10.2 Graph Operators

  10.3 GraphX

  第11堂课:Spark SQL

  11.1 Parquet支持

  11.2 DSL

  11.3 SQL on RDD

  时间 內? 容 备注

  第三天 第12堂课:Spark实时流处理

  12.1 DStream

  12.2 transformation

  12.3 checkpoint

  12.4 性能优化

  第13堂课:Spark程序的测试

  13.1 编写可测试的Spark程序

  13.2 Spark测试框架解析

  13.3 Spark测试代码实战

  第14堂课:Spark的优化

  14.1 Logs

  14.2 并发

  14.3 内存

  14.4 垃圾回收

  14.5 序列化

  14.6 安全

  第15堂课:Spark on Yarn

  15.1 Spark on Yarn的架构原理

  15.2 Spark on Yarn的最佳实践

  第16堂课:JobServer

  16.1 JobServer的架构设计

  16.2 JobServer提供的接口

  16.3 JobServer最佳实践

  第17堂课:Spark项目案例实战

  17.1 Spark项目的最佳架构模式

  17.2 案例的介绍和架构

  17.3 案例的源码实现

  17.4 调优

  分析Yahoo!淘宝等公司的大数据架构的生产环境下的案例,数据来自Sogou和纽约时报,阐述Spark项目案例的实施之道,使您能够应对绝大部分的大数据实施和业务场景。

评论列表暂无评论
发表评论
微信