多语言展示
当前在线:1048今日阅读:162今日分享:23

运维新概念学习积累

现在新技术发展的特别快,各种语言、技术、理念让人感到自顾不暇跟不上趟,必须通过不断的学习汲取,才能跟上技术发展的步伐,避免被时代所淘汰。
方法/步骤
1

IT部门面临的挑战——第一:IT部门的整体认可不足。虽然说IT在任何单位现在都是一个比较重要的部门,但是还有很多领导仍然认为它是一个成本中心,不是一个利润中心,认为这个部门是花钱的,而不是像业务部门创造业务价值和创造利润的。第二:对于运维工作人员负荷比较大,工作模式不被员工认可。传统运维压力很大,疲于奔命和救火,必须要寻求改变,走向自动化、平台化、智能化。第三:运行的态势相关信息掌握不足。监控是多维度的,不同的业务会有不同的指标,所有加起来有上万个指标,但却没有整体态势变化图、很难成体系,不能实现智能感知和态势预测,整个运维态势就很难保持平稳。第四:依据业务需求调整服务和设置资源的能力不足。在业务故障处理的时候需要很长的过程,中间涉及到很多的相关技术部门,需要和业务方进行交互,仅靠较少的人力几乎做不到。

2

运维的四个基本要求——第一个是规范化:就是尽可能的把操作规范下来,比如模板里是什么基础配置和安全基线,有一个规范化的标准。第二个是可控性:就是能够通过云监控平台发现各个业务存在的瓶颈,包括资源瓶颈和性能瓶颈,对可能产生的问题可控可分析。第三个是数据化:基于海量数据的决策分析,才能方便作出准确的判断和科学决策。第四个是主动性:从被动响应变为主动服务,主动发现问题,把问题消灭在萌芽中,在业务发生问题之前及时告知,这个感觉就不一样了。

3

建立以业务为导向的综合监控平台,主要目的就是要统一展现、统一管理和统一调度。全链路监测,这个目的就是从访问入口进来后一直到数据出去,每一个过程都要能监控到感知到。

5

将采集到的网络监控数据、机房数据、服务器和云环境监控数据以及摄像头报警数据集中起来,数据汇集之后生成PMDB性能管理库,在根据业务应用的特征,建立不同的模型进行相应的算法分析。

6

事件诊断一直是运维领域一个很重要的工作,事件和时序的相关性不仅可以为事件诊断提供很好的启发,而且在帮助我们进行根因分析时也能提供很好的线索。某个时间段出现的故障,都会产生一些相关的事件,对它们进行筛选和过滤是能够详细捕捉到故障和定位到根因的。

7

基于大数据平台的多维报表,根据自己的需要,按照日、周、月来生成运维报告,发送给管理层的领导,这些数据是他们比较关心的,比较清晰的图示出在这些时段发生了哪些问题,造成了多大面的影响,然后决定相关的资源是否进行扩充,相应的业务部署是否需要调整。

8

IT监控管理的发展大概有三代,从上世纪九十年代至今,第一代是以网络为中心,在这个时期咱们提供比较多的都是基于网络的监控和故障发现,带宽管理和服务水平协议。第二代监控就是以监控IT基础设施为中心,看到比较多的就是主机、存储、操作系统、中间件、数据库等各类基础资源的监控。第三代监控以IT应用为中心,针对比较高度复杂的交易,需要实现面向用户体验和面向应用高可用性的实时监测和故障的智能诊断,运维人员必须高屋建瓴、全面谋划,有能力提供一个全局性、高效健壮、标准规范、自动化的监控解决方案并加以实现。

9

IT运维管理应该化繁为简——简就是要确保业务和SLA服务级别,出现问题要及时响应、自动分析和优化,把处理的流程精简和高效组合起来,让问题匹配正确的场景,找到正确的人,在第一时间正确处理。

10

基于架构、工程师的经验和概率来做到收敛告警事件,基于规范和分工产生告警事件发送到对的人,基于数据和模型来提高事件的处理能力。很多事件有的工程师处理的特别快,反之如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考和学习,提高同类场景事件处理的能力。

11

智能运维的终极,实现的目标就是减少对人的依赖,逐步信任机器,实现机器的自判、自断和自决。技术都是在不断的进步,AI技术将来会解决很多的一些需要花费大量人力和时间才能解决的事情,但是AI不是一个很纯粹的技术,它也需要结合具体的企业场景和业务,通过计算驱动和数据驱动,才能产生一个真正可用的产品。

推荐信息