服务器集群的故障检测(三)
- 作者:新网
- 来源:新网
- 浏览:100
- 2018-02-24 17:17:38
如果资源在当前主机节点上,是不可操作的,并且还不同重新启动,则集群服务会认为此资源发生了故障,而群集服务按照以下方式检测资源的故障,废话不多说一起看看吧!
如果资源在当前主机节点上,是不可操作的,并且还不同重新启动,则集群服务会认为此资源发生了故障,而群集服务按照以下方式检测资源的故障,废话不多说一起看看吧!
<
div>(1)在周期性的时间间隔内,集群服务检查资源以了解资源是否可操作。集群服务通过定期调用资源监视器来完成此项任务。反过来,资源监视器则依赖于每个资源的资源主动态链接库( DLL)执行一段过程以检测资源是否正常工作。资源 DLL 通过资源监视器将结果传给集群服务。可以通过设置“Looks Alive”和“ls Alive ,轮询间隔来指定集群服务检资资源故障的频率。集群服务在每个“ls Alive ”时间间隔内请求对资源 的状态进行比“Looks Al ive" 间隔内所傲的更彻底的检查。“ls Alive”轮询问隔通常比“Looks Alive”轮询问隔长。
(2)如果资源 DLL 报告资源不可操作,那么集群服务会尝试重新启动资源。可以指定集群服务在一给定时间间隅内尝试重新启动资源的次数如果集群服务在指定的时间向陆内所做的尝试的数量超过了最大重新启动尝试次数,但是资源仍不可操作,那么集群服务会认为资源出了故障。
可以配置是否故障资源引起包含该资源的组故障转移到其他节点。如果故障资源配肯为引起包含该资源的组故障转移到其他节点,那么集群服务将尝试故障转移。如果故障转移尝试次数坦过组的阙值而资源仍然处在故障状态,则集群服务将尝试资源的重新启动。在资源的“故障重试周期”属性(所有资源的一个一般属性)指定的周期结束后,将做重新启动尝试。集群服务开始对资源尝试重新启动然后故障转移。
虽然“故障重试周期”属性的单位是ms,但按分钟顺序选择值。还可以选择比资源重新启动周期属性值大的或者相等的值并强制执行这个规则。