日期:2014-05-16 浏览次数:20355 次
1 症状初步判断
赶快ping 20.222.21.173, 报unreachle的错误. 赶紧call 系统管理员以及硬件工程师,让他们登陆物理主机看看出了什么故障.
2 紧急failover,恢复应用
由于应用页面报错,而且db0201已经down了,所以需要马上做failover操作,尽快切到db0202上面去,下面手动切换。
[nova@db0203 ~]$ sudo -u mmmd /usr/sbin/mmm_control move_role writer db2db2(20.222.22.145) master/ONLINE. Roles: reader(20.222.22.58), writer(20.222.22.56)
db2(20.222.22.145) master/ONLINE. Roles: reader(20.222.22.58), writer(20.222.22.56)
看到这个awaiting_recovery,不要慌,这是因为介质故障,所以虽然mmm_control监控到了db1,但是它不会把db1设置成online的,需要我们自己去判断db1是否正常,如果正常,我们可以自己把db1设置成online,这也算是mmm的一个谨慎的地方吧。所以我这里check完db1之后,发现db1的replication正常后,就可以设置db1 online了。
执行命令:sudo -u mmmd mmm_control set_online db1
看到 db1(20.222.21.173) master/ONLINE. Roles: reader(20.222.22.57), OK,db1已经online了
5 Change writer from db2 to db1
之后检查db1和db2双master运行一段时间,大概monitor20分钟后,就可以执行切换操作了,毕竟db1是ssd,db2是普通介质。
[nova@db0203 ~]$ date
Thu Sep 5 12:11:02 GMT 2013
[nova@db0203 ~]$ sudo -u mmmd /usr/sbin/mmm_control move_role writer db1
OK: Role 'writer' has been moved from 'db2' to 'db1'. Now you can wait some time and check new roles info!
[nova@db0203 ~]$ sudo -u mmmd mmm_control show
db1(20.222.21.173) master/ONLINE. Roles: reader(20.222.22.57), writer(20.222.22.56)
db2(20.222.22.145) master/ONLINE. Roles: reader(20.222.22.58)
看到db1已经成为了writer了。
6 善后email通知各位大领导
......在此省略N字......
附带mmm安装过程 http://blog.csdn.net/mchdba/article/details/8633840