赞
踩
2022年1月14日,阿里云用户组(AUG)第六期活动在北京顺利举办。阿里云产品经理吴华剑在现场生动讲解了 SLS
理念及发展历程,让客户清楚地理解了 SLS 的定位以及场景,对客户在业务上使用日志服务有极大的帮助。本文根据现场演讲整理而成。
大家好,我是吴华剑,来自阿里云的一位产品经理,目前负责阿里云 SLS 日志服务和Tablestore 表格存储的产品管理。
我之前负责过阿里云 OSS 对象存储的产品管理,相对来说,SLS不只是被开发同学集成到系统中由“代码”来日常使用产品的 RestFul API ,而且很多开发、运维同学也作为了最终用户,长时间地使用 SLS 、与 SLS 发生交互。
很高兴,今天我们团队有机会在阿里云用户组(AUG)的活动现场分享 SLS 产品规划与设计的一些想法,并能和各位 SLS 的用户进行面对面的互动讨论,收集大家的反馈。
我今天和大家主要分享的是 SLS 产品规划的一些思路和背后的思考,以及接下来的发展方向,并与各位用户进行互动讨论。
SLS 是服务阿里云客户、阿里集团自用的统一的可观测数据平台,以及一站式的ITOM Data to Insight的方案。SLS 需要支撑客户的数据采集、加工、存储与分析需要,应用在日志分析问题排查、业务日志运营分析等,也包括运维监控、统一告警等智能运维的场景。
当前,SLS 对内服务阿里集团各个BU的大客户,对外服务各类的企业客户(包括头部的互联网客户、海量的创新客户、企业客户上云)。SLS 既支持单租户EB级的存储规模、每天PB级写入数据量、千亿级记录秒级检索能力,服务头部客户的需要。同时,SLS 也提供一站式、弹性灵活、高稳定、高性能等的可观测解决方案,支持大量创新客户,灵活迭代、快速创新、持续发展。
那SLS 产品是怎么演进到当前的形态呢?
2012年 - 海量日志实时采集与分发
2012年,SLS 的前身是一个内部产品,设计的目标是为了满足阿里集团与蚂蚁海量日志实时采集与分发的需求。它主要解决几个问题:
当时,SLS 并不是一个对外商业化的产品,主要服务内部,主要包含以下部分:
虽然,是内部产品,但阿里集团各个BU使用时,都有很高的稳定性要求。因此,我们也做了很多高可用的建设和可用性保障。
2015年 - 日志实时采集与分发
到了2015年,随着服务内部更多实际的业务需求,这个产品能力演进为——服务阿里集团与蚂蚁集团的、统一的、日志数据采集存储分析平台。产品能力包括以下方面:
数据的实时采集、分发:单用户可支持PB级/天的写入,日志数据1秒即可见;
日志数据的弹性扩展&稳定&高性价比存储:单用户可支持EB级存储,相比开源自建方案更高的性价比、可用性SLA 保证;
快速分析的能力:千亿日志秒级检索。
各种互联网应用业务快速发展、产品快速迭代,需要一个高性价比、高性能、灵活、功能强大的业务日志、系统日志的采集存储分析系统,满足业务日志运营分析、日志排错问题定位。我们发现,这些需求在阿里云的客户中也是普遍存在的。
这个时候,我们就在酝酿和筹备,这个产品的商业化,以便去服务阿里云的客户。经过筹备、公测等阶段,2016年,SLS正式对外商业化发布了。
2019年 - 一站式的日志与监控数据平台
从商业化后一直发展到2019年,在客户的需求驱动下,SLS 有了很大的变化,从日志存储平台演进到一站式的日志与监控平台。主要变化有:
在这个演进的时间段,开源生态中Log、Trace、Metric等多个项目在百花齐放,但也面临不同的数据源,需要使用不同的采集agent或协议,不同的存储、分析系统。
开源生态中,OpenTelemetry 项目在数据的“采集协议”方面解决了“数据采集”层面的统一,但在存储与分析系统,虽然有些项目在探索,但是这些不同数据的存储后端还是没统一,仍然需要多个存储、分析系统。
2020年至今 - 一站式可观测数据的Data to Insight平台
2020年,随着内外部客户需求的驱动、以及技术发展的背景下,SLS 针对Log、Metic、Trace 的数据采集、存储、分析进行了统一,兼容了可观测数据相关开源生态。同时,SLS 也支持三方开放告警Alert信息的接入,并支持阿里云的云监控数据、ActionTrail/ConfigTrail/innerTrail数据的接入。
SLS 支持各类可观测数据的全面接入、统一存储与关联分析,支撑客户基于SLS 这个数据平台,构建可观测数据的存储与洞察分析平台。
SLS 提供了数据平台对接上下游生态的能力,支撑客户进行二次集成开发、自定义洞察分析。在这个基础上,SLS 也提供了数据洞察应用“demo”,如Trace分析中心、移动应用诊断监控、全栈监控等这些应用。
这里的应用“demo”,是指它是一个通用场景的应用,客户可以直接拿去开箱即用,也可以基于SLS 数据平台的查询分析与可视化能力,加上这些“demo”,去构建一个自己的可观测运维系统。
如何管理一套复杂的IT系统,避免“孤岛”
当今数字化业务迭代越来越快,同时技术架构也在变革。比如,多云架构、微服务等带来架构、迭代的灵活性,但是组件也越来越多。那我们怎么去管理一个这么复杂的IT系统呢?我们需要考虑,如何避免让整个数据平台变成是一个个独立的烟囱与孤岛。
在服务客户的过程中发现,不同场景里,都需要解决类似的需求。
针对这些不同的客户场景,我们进行了需求的归纳:
需要解决的问题
在面对管理“复杂的IT系统”的挑战,我们主要解决三个问题:
总结下来,我们设计时,需要解决“系统的构建问题”与“算力+算法的问题”。
针对这些设计目的,SLS产品大图架构,主要分为几个部分:
接下来,我们简单介绍下,这几个部分的能力。
数据管道 - 采集兼容对接各类数据源,并提供海量数据实时采集、加工、分发的能力
兼容对接各类数据源系统
针对于Log、Metric、Trace、三放告警等数据源,SLS提供统一的采集能力,覆盖各种端,兼容各种开源采集协议。其中,2021年,SLS开源了采集 Agent ilogtail。
同时,SLS 服务也提供了全球加速采集的能力,支持客户全球化应用,高效地进行数据采集。
海量采集、加工、流转管道
数据采集后,SLS还提供数据加工、投递消费。
可观测数据平台 - 可观测数据的统一存储与关联分析
统一的可观测存储
SLS 可观测数据平台的设计,其中很重要一点,就是提供统一的“可观测存储”,支持不同类型的可观测数据(Log/Metric/Trace等)统一存储在SLS。客户不再需要针对不同的可观测数据,去建设不同的存储系统,使用不同的方式去查询分析。
高效智能的关联查询分析
SLS 可观测数据平台,支持查询检索、SQL 统计分析、PromQL、AI 算子等能力,提供高性能、智能的关联查询分析。
ITOM横向支撑 - 智能巡检与告警中心
AIOps智能巡检
我们基于机器学习,提供AIOps 能力,支撑客户构建智能运维系统。SLS 智能巡检,对于Metric、Log等数据都可以进行智能巡检发现隐患,解决人工设置阈值无法覆盖的问题。同时,智能巡检支持反馈优化,通过客户对于巡检结果的点击与处理反馈,模型会自动适配客户的数据与场景。
一站式告警中枢
刚才的讨论中有很多客户也提到,需要解决不同系统产生的告警事件的统一管理与处理问题。2021年,SLS 也发布了一站式的智能告警中心。它是开放的告警中枢,不只是对接SLS 中各类数据产生的告警,也可以对接阿里云上其他系统触发的告警、客户已有系统的告警(比如Zabbix 告警事件等)。
同时,SLS 告警中心提供:
2022年,SLS 的产品更新计划会继续围绕上文提及的几块来发展。SLS 会继续支持客户采用不同的方式来集成SLS ,客户可以使用SLS 或基于SLS 开发构建自己的日志/Metric /Trace 等数据分析平台或运维、运营分析系统。(正文完)
阿里云产品经理吴华剑:SLS 的产品功能与发展历程
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。