日期:2014-05-16  浏览次数:20752 次

虚拟环境下SQL Cluster 资源挂掉
SQL 2008R2 两个节点, active/active, Windows 2008 R2 SP1, 每个节点32core cpu, 128 GIB 内存。

两周前P2V, 从phsyical machine转到vsphere VMware上,硬件指标无变化,as-as的P2V。现在的问题是,随机的发生SQL instance Virtual IP failed. 导致active node A 上的数据库实例重起,并没有发生故障转移。重新启动时间在1分钟之内,所有客户端连接全部断掉。 幸运的是很快cluster自恢复,数据库实例恢复后,用户开始连接。

事件发生在是上周3一次,工作时间4pm, 上周5一次,工作时间10am, 今早一次,工作时间11:50 am. 

Cluster Event : 
1077: Health check for IP interface 'IP address 10.xxx.xxx.xxx) failed (status is '1117').
1127: Cluster network interface 'xxxxxx' for cluster node 'xxxxxx' on network 'CLuster Network 1' failed. 
1129: Cluster network 'Cluster Network 1' is partitioned. Some attached failover cluster nodes cannot communicate with each other over the network. THe failover cluster was not able to determine th location of the failure.
1126: Cluster network interface 'xxxxx' for cluster node 'xxxx' on network  'Custer Network 1' is unreachable by at least one other cluster node attached to the network

SQL错误日至除了实例重起的信息和audit login failure信息外没有其他特别的Error

初步怀疑 Network Adapter 的问题,但是不是很确定。 现在把P2V后E1000的网卡转变成VMXNET3类型,并且扩大buffer,从512变成8192。 等待明日的网卡配置变更。参考VMWare 的最佳实践: Large packet loss at the guest OS level on the VMXNET3 vNIC in ESXi 5.x / 4.x (http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2039495)

汇总问题: 大家有没有遇到过类似VMWare环境的错误,可能的错误在哪里?
------解决方案--------------------
配置和网络的问题多一些。具体的需要你结合自己的来分析。
------解决方案--------------------
我去。你们公司DBA是真正能学习到东西的。有机会求介绍过去学点东西。
------解决方案--------------------
现在流行虚拟机啊,增加了一层,有可能是虚拟机在网络实现上的问题,这个很难排查。。。