Apache Spark简明教程
Apache Spark简明教程
1 Spark集群物理结构
注:Spark的运行不一定依赖于Spark集群,还支持本地、YARN、MESOS。Spark集群只是Apache Spark提供的一种分布式计算环境。
(1)Master
(1)监听Worker,看Worker是否正常工作
(2)接收worker的注册并管理所有的worker
(3)接收和调度client提交的application,并向worker分派任务
(2)Worker
(1)通过RegisterWorker注册到Master
(2)定时发送心跳给Master
(3)根据master分派的application配置进程环境,并启动执行Task所需的进程(StandaloneExecutorBackend)
2 系统运行时结构
(1)Client角色
提交任务者
(2)Driver角色
Driver是执行开发程序中main方法的进程
功能
(1)把application转为task
(2)跟踪Executor的运行状况
(3)为Executor节点分派任务
(4)UI展示应用运行状况
...