×
新网 > 云服务器 > 正文

服务器集群的故障检测(二)

  • 作者:新网
  • 来源:新网
  • 浏览:100
  • 2018-02-24 17:16:47

在集群节点之间的通信,允许集群服务器监测节点故障和状态改变,并且将集群作为一个实体进行管理,通过心跳通信,每个节点都可以检查其他节点,以及他们的应用程序可用性。

 在集群节点之间的通信,允许集群服务器监测节点故障和状态改变,并且将集群作为一个实体进行管理,通过心跳通信,每个节点都可以检查其他节点,以及他们的应用程序可用性。

去 (24).jpg
<div>做出响应,则正常工作的服务器会启动故障转移过稳(包括对故障服务器拥有的资源和应用程序的所有权进行仲裁)。仲裁是使用质询和辩护协议来执行的。换而言之,如果某个节点似乎发生了故障,则会在给定的时间内允许它以几种方式中的任何一种表明它仍处于正常运行当中,并且可以向其他正常的节点通信。如果它无法证明自己正在正常运行,则此时会将它移出集群。

 
多种事件都可能导致节点无法响应心跳消息,如计算机故障、网络接口故障、网络放障,甚于在可能是由于少有的高峰活动期。通常来说,当所有节点进行通信时,配置数据库管理器会向每个节点发送全局性的配置数据库更新。当心跳通信失败时,日志管理锦还会将配置数据库的变更保存到仲裁资源中。这保证了幸存的节点可以在恢复过程中访问最新的集群配置和本地节点的注册表数据。
 
要注意的是,故障检测算法相当保守。换句话说,它会尽量多地给那些明显发生故障的节点以质询的机会,然后才会进入故障转移过程。如果导致心跳响应失败的原因是暂时的,避免故障转移所可能造成的潜在影响当然是再好不过了。但是,由于无法知道这样的节点还将沉默多长时间,故该节点可能遭受长时期的故障影响。因此,在经过一个合理的时间段后就应该启动故障转移过程。
 
以上就是小编总结的相关知识点,希望这篇文章可以帮助大家。
 

免责声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,也不承认相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,请发送邮件至:operations@xinnet.com进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

免费咨询获取折扣

Loading