嘿,咱湖南老乡们呐!今儿个咱就来唠唠那智能告警平台。这玩意儿可不得了,能一站式搞定从监控到异常检测告警,还有针对压缩后告警进行根因分析的 AIOps 闭环能力呢。就好比咱车上有个厉害的小助手,帮咱快速轻松应对每一次告警,让业务系统稳稳当当运行。
咱先说说这告警管理的实现原理和优势哈。它有集成管理功能,分默认告警集成和三方产品集成。默认告警集成能自动检查监控数据异常,上报告警事件。三方产品集成能接入任意告警源,在 ARMS 上一站式处理。告警事件的数据结构也有讲究,有标签和注释,标签决定告警事件,标签变化就产生新告警。关键指标分析也很重要,像事件量、所有告警量、主告警量、MTTA、MTTR 这些都能根据时间筛选器动态变化,还能按天统计趋势呢。
告警分析可不少门道哦。统计分析能帮咱快速分析告警和成员工作效率,还能回溯历史系统状况。关键指标分析里的事件压缩分析,能按天看趋势,点右上角更多按钮还能下钻看更多分析。应用分析能统计不同应用的告警数量,分派策略分析能看匹配不同分派策略的告警数量,关闭分析能统计关闭告警数量,告警升级分析能统计各应用不同级别待处理升级的告警数据。告警级别分析能看不同级别占比,告警状态分析能看状态占比,告警有效性分析能看有效、误报、无效的占比,还能联动查询严重级别告警的处理状态呢。成员分析能统计成员告警处理效率,级别分析能看不同级别告警的发生、认领、关闭情况。还有基于分派策略和应用的告警量统计,可详细啦。