故障警报Redis集群服务器发生宕机(redis集群服务器宕机)
Redis集群实例服务器宕机异常,停止服务
尊敬的用户们,您好!
我们非常遗憾地通知您,我们正在使用的Redis集群服务器发生宕机!经进行初步检查,我们已经确定Redis系统的宕机失灵是由于服务器的负载过重导致的。
因此,服务器宕机异常,暂停服务,历时一小时左右把系统修复后恢复服务。
宕机期间,我们数据工程师和运维团队竞相尝试拯救系统,他们已经花时间精力为您付出超过14小时,他们最终定位到了引起故障的具体原因。
为此我们会对负责处理的团队的工作进行全面审查,确保这一事件不再发生,我们传了相关性能脚本,以检测高峰期Redis负载情况,在负载高的情况下及早预警。
// 定时检查 Redis 性能的脚本
// windows客户端
while(true){
// 休眠30秒
sleep(30s)
// 统计Redis服务器负载
RedisLoad=`redis-cli info | grep ‘used_memory_peak’`
// 判断负载是否超标
if [ RedisLoad -gt XMB ]
// 报警
then
alert()
fi
}
// 对于Linux客户端
while(true){
// 休眠30秒
sleep(30s)
// 统计Redis服务器负载
RedisLoad=`redis-cli info | grep ‘used_memory_peak’`
// 判断负载是否超标
if [ RedisLoad -gt XMB ]
// 报警
then
alert()
// 扩容Redis服务器
resizeRedis()
fi
}
再次感谢您的理解与支持!
谨此,
有限公司