当前位置:   article > 正文

阿里云鲍文乐:基于事件的自动化运维最佳实践_阿里云自动化运维手段

阿里云自动化运维手段

摘要:2022 年 7 月 25 日,云上自动化运维 CloudOps 系列沙龙_第二弹正式开启!阿里云弹性计算技术专家鲍文乐带来的主题分享是《基于事件的自动化运维最佳实践》,以下是他的演讲内容整理,本篇内容主要分为四个部分:

1.    为何事件如此重要

2.    让事件通知更有效

3.    事件驱动的运维架构

4.    云上托管事件运维

01 为何事件如此重要

系统事件代表了云资源状态的变化。以弹性计算的系统事件为例,上图代表弹性计算的系统事件来源。

为了给用户提供云服务器,需要底层的物理基础设置,以及中间的虚拟化服务。在虚拟化服务上,运行 Guest OS,最终给用户提供服务。

在运维类系统事件部分,阿里云负责运维物理基础设施和虚拟化服务。当计算、存储、网络组件出现故障,阿里云会发出运维类的系统事件。这些运维类的系统事件,要云厂商和用户通过协作,一起运维。

在资源状态变化类事件部分,不一定代表故障或者问题。但它是实现事件驱动架构的基础。

如上图所示,展示了部分典型的系统事件。

在非预期异常方面,实例宕机可能导致用户的服务中断。如果本地盘的实例发生宕机,阿里云无法替用户决定,是否将实例迁移,所以用户必须响应。

在计划内运维方面,最常见的是主动运维类事件。实例因系统维护计划重启。当计算、存储、网络等底层硬件出现问题,但没有严重到立刻宕机。

在这种情况下,阿里云检测之后,会给用户发送一个计划类运维事件。在一定时间内,如果用户不进行响应,阿里云会帮用户把这台机器迁移到一个健康的硬件上。

如果用户响应,可以在阿里云给出的的操作窗口里,选择一个对自己最有利的,对服务影响最小的时间点。提前迁移实例,从而规避计划重启。

在费用方面,如果实例到期停机,系统会在实例到期前三天,发出事件。用户需要规划自己的续费方式&#x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/880132
推荐阅读
相关标签
  

闽ICP备14008679号