多语言展示
当前在线:933今日阅读:39今日分享:10

MSCS故障解决方案

错误现象   系统启动后,发现集群服务无法正常启动,集群管理器也无法正常打开,在任一节点,打开资源管理器,都无法看到共享磁盘柜,相应安装在共享磁盘柜上的软件也就无法正常启动和使用。打开事件日志,可以发现以下错误
工具/原料
1

Description: The log file Q:\MSCS\quolog.log was found to be corrupt. An attempt will be made to reset it, or you should use the Cluster Administrator utility to adjust the maximum size.

2

> 或者检查点chkXXX.tmp文件不能读取,或者文件已坏。 除以上比较明显描述的错误外,事件日志中还可以发现以下记录: Event ID:1067;Event ID: 1148

3

解决方法 从事件日志分析,quorum.log 文件出现了错误,导致了系统集群服务不能正常启动,解决问题的关键在于能够把quorum.log文件恢复到一个初始化状态,从而可以使系统集群服务正常启动。

方法/步骤
1

通过-ResetQuorumLog参数来启动Cluster,以达到初始化quorum.log的目的。 1)打开控制面板,双击“服务”(Service)图标; 2)在服务管理器中找到Cluster service,右键点击“属性”(properties); 3)在启动变量(Start Parameters)空白框中写入-ResetQuorumLog,启动Cluster服务。

2

如果以上方法无法启动Cluster,则通过-NoQuorumLogging启动Cluster。 步骤1不能正常启动Cluster服务,说明需要完全重建检查点和quorumlog文件,可以按以下步骤实施: 1)打开控制面板,点击“服务”(Service)图标; 2)在服务管理器中找到Cluster service,右键点击“属性”(properties); 3)在启动变量(Start Parameters)空白框中写入-NoQuorumLogging,启动Cluster服务。 然后,再次用-ResetQuorumLog参数来启动Cluster: 4)打开共享磁盘柜,找到\mscs目录,删除它; 5)在服务管理器中找到Cluster service,右键点击“停止”,将Cluster服务停止; 6)在服务管理器中找到Cluster service,右键点击“属性”(properties); 7)在启动变量(Start Parameters)空白框中写入-ResetQuorumLog,再次启动Cluster服务; 8)此时Cluster服务将正常运行,主节点将可成功访问共享资源。

3

若此时集群中第二节点处在故障状态,可采用以下方法来解决。 1)在开始选单的管理工具中打开集群管理器; 2)点击出现故障的节点, 右击“evict”,使故障节点退出集群资源; 3)在第二节点上重新安装Cluster服务,再次加入集群资源。

注意事项
1

集群服务将Cluster的注册信息也保存在共享资源的一个文件中。检查点文件位于\Mscs\Chkxxx.tmp,每次检查点文件生效,都将把有关信息记录入\Mscs\Quolog.log 文件中

2

此次集群服务启动失败,关键在于Quolog.log文件被破坏,所以此次修复的关键在于能够读取一个正常的Quolog.log文件。采用的方法是:删除\Mscs目录下的所有文件,然后设置参数-NoQuorumLogging让Cluster重建Quolog.log文件。

推荐信息