IT发布是一项频繁发生,且比较耗时的IT支撑工作,实现无人发布将对于成本的控制和故障的减少起到积极的推动作用。
方法/步骤
1
无人值守发布涉及的关键流程包括:制定发布计划、确认反馈、数据采集、对比分析、算法训练和回放验证。
2
无人值守发布的实现,需要关注应用健康度的相关指标:CPU、内存、IO等基础环境相关指标,PV、UV、业务量等业务指标,还有中间件相关指标和异常日志。
3
其中数据异常识别面临的挑战包括:发布过程中快速采集数据,排除各种干扰数据的影响,在各种具有不同特性的指标中选择合适的检测方法。
4
接下来是数据预处理,包括了数据聚合、数据合并以及数据不全,其中聚合又分为从IP维度和从时间维度,经过一系列的预处理形成待分析数据。
5
还有一个要解决的问题就是要保障有效的准确率和召回率,这需要通过不断的分析误报和漏报数据,进行算法的微调,其中需要借助无人值守故障回放。
6
需要不断的分析检测数据并调整算法,如果存在没有办法明确识别或者持续存在的误报,需要基于机器学习来提高检测准确率。
7
机器学习的要素包括:学习用的样本数据,机器学习的算法,以及学习结果和实时检测的结合。其中学习数据的获取需要关注以下几点。
8
机器学习算法通过对异常的分类分析,评估是否是阈值设置的问题,以及相关指标的设定是否合理,不断进行调整优化。
上一篇:MAYA UV拆分教程