赞
踩
摘要:2022 年 7 月 25 日,云上自动化运维 CloudOps 系列沙龙_第二弹正式开启!阿里云弹性计算技术专家鲍文乐带来的主题分享是《基于事件的自动化运维最佳实践》,以下是他的演讲内容整理,本篇内容主要分为四个部分:
1. 为何事件如此重要
2. 让事件通知更有效
3. 事件驱动的运维架构
4. 云上托管事件运维
系统事件代表了云资源状态的变化。以弹性计算的系统事件为例,上图代表弹性计算的系统事件来源。
为了给用户提供云服务器,需要底层的物理基础设置,以及中间的虚拟化服务。在虚拟化服务上,运行 Guest OS,最终给用户提供服务。
在运维类系统事件部分,阿里云负责运维物理基础设施和虚拟化服务。当计算、存储、网络组件出现故障,阿里云会发出运维类的系统事件。这些运维类的系统事件,要云厂商和用户通过协作,一起运维。
在资源状态变化类事件部分,不一定代表故障或者问题。但它是实现事件驱动架构的基础。
如上图所示,展示了部分典型的系统事件。
在非预期异常方面,实例宕机可能导致用户的服务中断。如果本地盘的实例发生宕机,阿里云无法替用户决定,是否将实例迁移,所以用户必须响应。
在计划内运维方面,最常见的是主动运维类事件。实例因系统维护计划重启。当计算、存储、网络等底层硬件出现问题,但没有严重到立刻宕机。
在这种情况下,阿里云检测之后,会给用户发送一个计划类运维事件。在一定时间内,如果用户不进行响应,阿里云会帮用户把这台机器迁移到一个健康的硬件上。
如果用户响应,可以在阿里云给出的的操作窗口里,选择一个对自己最有利的,对服务影响最小的时间点。提前迁移实例,从而规避计划重启。
在费用方面,如果实例到期停机,系统会在实例到期前三天,发出事件。用户需要规划自己的续费方式&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。