【Flink系列】部署篇（一）：Flink集群部署

作者：小桥流水78 | 2024-08-13 01:54:45

踩

flink集群部署

主要回答以下问题：

Flink集群是由哪些组件组成的？它们彼此之间如何协调工作的？
在Flink中job, task, slots,parallelism是什么意思？集群中的资源是如何调度和分配的？
如何搭建一个Flink集群？如何配置高可用服务？如何使用外部文件系统？

Flink系统架构

在这里插入图片描述

Flink的核心组件包含客户端，jobmanager（JM）和taskmanager™三部分。此外Flink往往还需要结合很多外部组件一起使用，比如高可用服务、持久化存储、资源管理、指标存储与分析的组件。

Flink客户端主要负责将job提交给JM。JM是中央调度器，包含Jobmaster, Dispatcher, ResourceManager三部分。JobMaster is responsible for managing the execution of a single JobGraph. Multiple jobs can run simultaneously in a Flink cluster, each having its own JobMaster. The Dispatcher provides a REST interface to submit Flink applications for execution and starts a new JobMaster for each submitted job. It also runs the Flink WebUI to provide information about job executions. The ResourceManager is responsible for resource de-/allocation and provisioning in a Flink cluster — it manages task slots, which are the unit of resource scheduling in a Flink cluster. TM负责执行具体的任务。

如果只是提交作业和执行作业，不考虑整个集群的稳定性，拓展性，便于维护的性能等，只部署以上三个组件就够了。

但是，如果TM done掉了，JM还可以控制任务重启在其它TM上；如果JM done掉了，所有的任务都将失败，因此我们需要部署高可用服务使得一个JM done掉后，备用的JM 自动地顶上去作业。Flink目前（1.16）仅支持两种高可用服务：Zookeeper HA service 和 K8s HA service.

Flink有故障恢复的机制在任务失败后重启任务，并读取任务失败前的状态在这个状态下继续工作，可以保证哪怕任务失败重启，数据也不丢失，不重发。而这个“任务失败前的状态”是通过checkpoint保存的，考虑到多个JM需要共享checkpoint，checkpoint往往保存在可共享的持久化外部存储系统中，比如HDFS，S3等。因此我们还需要部署文件存储系统。

再说集群的资源管理和调度，Flink支持k8s和YARN两种工具来自动化管理集群资源，也可以不依赖于任何Resource Provider，采用独立部署（standalone）方式部署集群。

再说集群的监控，Flink本身收集了很多指标，可以通过metrics reporter与外部的指标存储、分析、展示工具一起搭建一个Flink监控系统。比如联合Prometheus, grafana搭建监控系统。

Flink的作业执行机制

在讲解Flink不同的部署方式以及不同部署方式下各组件如何协调工作前，我认为很有必要讲解一下Flink的作业执行机制，便于理解之后会反复提到的JobGraph，task, slots等概念。

DataFlows和Operator

程序运行时会被映射为dataflows,每个数据流都是以一个或多个sources开始，一个或多个sinks结束，类似于任意的有向无环图。大多数情况下，程序中的转换

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/972592