日期:2014-05-16  浏览次数:20609 次

oracle数据库集群实例故障排除
故障环境:
redhat操作系统
oracle RAC环境中数据库服务器
故障现象:
RAC中单个服务器无法连接
故障原因:
可能为RAC环境异常导致单点故障,具体原因分为:
1、心跳线问题
2、vote disk无法访问
3、服务器死机
处理办法:
针对原因1:
检查ocssd.log日志文件,应发现类似WARNING: clssnmPollingThread: node jlcpxdb1 (1) at 50 1.798894e-315artbeat fatal, eviction in 29.820 seconds seedhbimpd 0 的信息,则表示心跳失败,可能原因为心跳线存在问题或对端服务器无响应。
针对原因2:
检查ocssd.log日志文件,应发现存在voting device hang 的信息,则表示访问磁盘异常,可能原因为hba卡,光纤线、光纤交换机和磁盘阵列故障。
针对原因3:
通过检查ocssd.log和操作系统日志都未发现异常,则极有可能为服务器死机或宕机,如频发出现建议检查硬件