多语言展示
当前在线:1346今日阅读:39今日分享:10

大数据的四个实践

项目数据分析师分享:大数据的规划分析,决策者和开发者首先要从业务驱动的角度,选择数据生产的业务场景,即要预计数据分析得到的结果能带来哪些效益。服务器运营的特点,我们在以下四个场景做了大数据的分析和应用,给实际的运营带来的实实在在的好处。
方法/步骤
1

1、硬盘故障预测硬盘是服务器硬件故障率最高的一个部件,如果能提前预测到硬盘故障,对业务体验、完善备件管理都有莫大的收益。这也是基础架构运营在经历自动化、流程化后,需要进一步提升运营效率、降低运营成本的天然要求。涉及硬盘的运营数据包括业务IO数据、硬盘内部的SMART和硬盘运行的环境变量数据(温度和湿度)。目前,运营系统对IO数据是每小时采集一次,SMART数据每三小时采集一次,温度和湿度每半小时采集一次,这些数据合计起来每天的记录数上亿条。

2

2、服务器利用率分析下图是某业务某机型磁盘IO的利用率统计分析图。分析过程如下:存储类机型,看到一段时间统计出来的IO的利用率并不高,并且是写少读多的应用,是否可以考虑使用IOPS相对不高的廉价硬盘?还是业务的架构存在优化的空间?服务器利用率分析给运营带来的好处在于:1)结合业务模型,发现业务应用服务器的短板,在发现并修复系统架构缺陷的同时,提高整体利用率;2)对机型选型的优化,例如对于磁盘容量使用率不高的机型,在后续的机型定制中减少硬盘的数量。

3

3、故障率分析服务器故障分析对服务器的各个部件的故障率都做了分析和监控,包括1)生成月度故障率报表;2)故障率异常的实时监控和自动告警;3)分析外部条件与故障率的关系;4)与OS的软件告警信息联动起来,及时发现服务器的亚健康状态。下图是某服务器硬件最近几周的故障率统计信息。按部件给出各个机型的故障率情况,及时发现批次性故障并给出告警

4

4、环境监控如果能把机房环境温度有效的监控起来,我们就能在发现异常时发出高温告警,提前采取措施。对服务器入风口温度进行采集和监控是一个较为有效的方案。下图显示服务器入风口温度变化的异常情况,经过数据的规整和误差修正,产生了高温告警。通过自动化流程,及时知会到机房现场负责人。

推荐信息