赞
踩
云搜集群的资源对象动态可变,无法进行预先配置;
云搜集群监控范围繁杂,各类监控融合难度大;
云搜实例间的调用关系复杂,故障排查更困难。
监控系统必须要保证可靠性,保证系统不会因为单点故障而全局失效,监控数据有备份机制,系统各服务的实例均可通过备份数据得到恢复;
监控系统必须支持容器上快速部署及水平扩容,这既是云原生的基本要求,也符合企业系统容器化演进的实际情况。
采用Prometheus扩展组件Node-exporter采集底层服务器的各种运行参数,如CPU、diskstats,filesystem,loadavg,meminfo,netstat等信息。
采用Heapster采集Node节点上的cAdvisor数据,作为Node-exporter的有效补充,Heapster能够按照Kubernetes资源类型来整合资源,如pod,namespace,容器等状态信息,并将数据输出到外部存储,如本例中使用的InfluxDB,为数据可视化呈现提供有效的数据支持。
目前云搜集群的组件基本以二进制文件的方式部署,使用1、2中所述的方式无法完全监控到各组件的状态。因此采用Crontab的方式对集群各组件进行监测并收集数据,同时,支持对异常组件进行远程恢复。
集群基础组件监控:集群节点宕机、网络不可用、集群组件异常等;
集群资源对象监控:资源对象状态监控、容器状态监控等;
集群服务可用性监控:资源对象可用性监控。
高可用:在云搜集群中,每个Prometheus监控组件实例均采用多副本方式部署;任意一个Prometheus实例失效都不会影响到监控系统的整体功能。
监控立体化:监控系统已经集成了基础组件、服务及应用等三个维度的监控告警;
可动态调整:在云搜集群架构中,支持对监控组件实例的动态可调。目前云搜支持通过调整监控组件实例数,来满足各种规模系统的监控需求。
目前系统尚不支持日志监控及分布式追踪等功能,考虑在日后加入ELK进行日志监控,通过Logstash搭配Elasticsearch方便监控日志的查询。
增强监控及告警响应的速度,加入更多的自处理机制。
引入Helm包管理工具管理系统的部署文件,简化部署的流程。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。