智能监控概述

在运维领域落地智能运维最好的领域就是监控，因为监控系统有大量的数据。

监控系统演进的几个阶段：

监控自动化
- 监控系统可用、好用
监控立体化
- 监控覆盖面更全，采集到各维度更全面、更完整的数据
监控平台化
- 监控系统与其他运维自动化系统打通和联动，比如与跟CMDB打通，能够自动更新相关的负责人，以及集群服务器的信息，比如与部署系统打通，当集群服务上线的时候能自动屏蔽这些集群服务的告警，然后在上线完成后恢复监控。
监控产品化
- 监控系统虽然是一个内部系统，技术人员经常需要观察监控系统来发现问题，优化系统，在故障发生的时候能够更快更方便的去定位问题，判定根因。所以监控产品更需要贴近人的使用习惯，用户体验更好。
监控智能化
- 让监控系统拥有更强的智能

传统监控与智能监控的差别：

传统的监控	智能监控
监控指标侧重单机运行状态	监控指标侧重业务整体运行情况
做固定阈值的异常判断	对周期性波动变化的指标做预测和异常检测
发出基本的告警，数量较大	对信息做有效的区分和整合
做故障现象的告警，需要大量的人工分析	做故障根因的分析，揭示问题的本质
发现问题而不处理，由人决定如何处理	根据故障根因，智能决定如何处理并执行
发出告警时已经出现故障	在故障出现前发出预警

智能监控总体规划

监控业务全流程覆盖

故障预警：故障前可以发出故障预警
故障告警：能对周期性变化指标进行预测和异常检测
告警合并：支持按照合适的维度对告警进行合并
故障根因分析：智能对故障根因进行分析，给出最可能的原因，辅助人做决策
故障自愈：可以根据故障原因选择合适的故障自愈策略并执行，自动解决故障

监控总体规划

关键指标的智能监控

关键指标的智能预测和异常检测

关键指标指标的定义:

比如某项业务网络流量的变化，或者某些集群或者域名访问量的变化，或者是某一个业务订单量和交易额的变化，这些指标对于衡量整个业务的健康程度是非常有效，非常相关的。

这类指标整体规律性较强、短期小幅波动较多的关键指标，不适合使用传统静态阈值的异常判断告警。

适用的场景：

关键指标的智能预测

网络出口或业务的进出流量
集群和域名的访问量

智能监控的需求：

按天对流量的提前预测
对实时流量的异常检测

技术实现方案：

使用机器学习和运维相关业务结合

使用回归模型按天预测流量变化趋势
使用分类模型对实时流量做异常检测

机器学习方法的四个步骤

机器学习的方法

流量预测及异常检测的技术框架

训练集样本的标记

做机器学习，其实很重要的一点是对训练集样本的标记，当我们拿到的流量数据或者访问量的数据是非常大量的数据，有上百万条，这样的数据就必须得对数据进行标记。

如果采用人工的方式，必然要耗费大量的时间和工作量，这个短期之内是无法完成的，所以采用统计的方法及无监督算法的方式，对这个样本库进行二次的标记，从而可以得到一个比较准确，可以信任的一个样本库，具体的过程如下：

训练集样本的标记

如何使用统计方法与无监督算法对数据进行标记？

3-sigema,Tukey’s test,Isolation Forest,One Class SVM每一个方法其实它的准确度不是特别高，所以采用集成模型的方法，也就是说有四个分类器采用投票的方式,共同投票出来的结果其实是好于原来每一个方法,那当这四种方法都认为某一个数据点是异常点的话那么这个点就标记为异常数据，当所有的方法都认为这个点是一个正常点的时候那么就标记为正样本。

这样就可以得到一个初步的训练的样本库，然后使用这个样本库训练出一个分类器，再将历史数据投入到这个分类器中，这个分类器输出的是一个异常的概率，我们取这个异常概率为Top N的这些数据集，再把它标记为一个有标记的样本库，这样就得到了一个相对比较准确的一个有标记的样本库，这样用这些数据就可以训练机器学习的模型了。

统计判别方法——3-sigema

3-sigema的特点：

解释性好
计算开销小
更适用于正态分布

3-sigema的缺点：

无法处理复杂情况

正态分布

3-sigema-1

3-sigema-2

统计判别方法——Tukey’s test

Tukey’s test采用类似于上下中位数相关的一些算法，然后来决定：

正常数据一般来说都是比较密切的，比较接近。
异常数据往往是离大部分的正常数据是比较远。

Tukey’s test-1

Tukey’s test-2

通过这种方式，我们看到它位于上面和下面这些比较边缘的点就可能是一些异常的点。

Tukey’s test的特点：

不受异常值的影响
能够准确稳定地描绘出数据的离散分布情况

Tukey’s test的缺点：

过于敏感，不够智能

Tukey’s test-3

无监督算法——Isolation Forest

Isolation Forest算法的思想是随机的选择一些点，然后去生成树形结构，但由于这个异常的点，它必然与正常点是不太一样，特征也就不太一样。

Isolation Forest-1

在这个空间当中，它与正常点的距离和聚集程度也是比较远。

Isolation Forest-2

一般来说，在这个多棵树当中异常的点，它处于的层次会比较浅，那最后根据它处于这个层次基本上就能够判断出它是一个正常点还是一个异常点

Isolation Forest-3

Isolation Forest的特点：

使用集成方法的无监督算法
计算开销小，训练速度快
异常点更加靠近树的根部，而正常数据多处于树中更深的节点

无监督算法–——One Class SVM

One Class SVM的特点：

利用支持向量域描述的思想，寻找分离超平面；
适用于连续数据的异常检测；
适用于筛选一定比例的样本；

One Class SVM-1

One Class SVM-2

One Class SVM-3

One Class SVM-4

流量的预测

当得到了一个基本的有标记的一个训练集，那么就可以根据这个训练集来做流量的预测和异常检测了

流量的预测怎么做？

我们先来看一下这些数据的特点，首先它的整体规律性比较强，整体规律性比较强，就可以认为这个流量趋势其实是可以预测的。其次是短期的小幅波动会比较多，就可以通过移动平均的这种方式来吸收他的短期的这个波动，最后一个特点，就是在工作日周一到周五他的流量相对来说是比较高，但是在周日流量相对来说偏低，假期流量也是偏低的，所以要设计对应的历史特征提取规则。

流量数据的特点