研发说今天凌晨1点15分 程序连不上mongodb服务器 导致大量报错。Linux运维第一工作现场。
工具/原料
SecureCRT MongoDB Zabbix
方法/步骤
1
登录mongodb服务器,习惯性的输入uptime free -m df -h 命令,没有问题。
2
查看文件描述符数 tail -n 2 /etc/security/limits.conf , 没有问题。
3
查看mongodb最大连接数 db.serverStatus().connections 没问题。
4
查看系统日志 less /var/log/messages 没问题。
5
查看zabbix监控发现mongodb的一个复制集 cpu load 飙到4点多。
6
查看mongodb复制集中的计划任务 cat /var/spool/cron/root 发现1点15分有备份,问题找到了。原因应该是mongodb备份占用了大量的CPU时间,正好这时程序也有定时任务大量请求,导致一部分连接连不上报错。最后跟研发沟通修改备份时间解决问题。