第13期－ 2015年8月

Loxoll HA-AP 如何处理孤岛状态？

前期提要： FC 孤岛

在引擎间利用管理端口 ( E1 ) 实施以太心跳 ( Ethernet Heartbeat )，用以协助识别 FC 孤岛 ( FC Isolation ) 和异地站点故障 ( remote-site-down )。一旦引擎无法经由 FC 正常沟通，即可借助以太心跳来判断是异地站点故障 ( 无以太心跳 )，还是仅仅因为 FC 断链 ( 有以太心跳 )，然后采取适当应对措施，避免脑裂现象。

绝对孤岛

那么是否有可能 FC 和以太心跳同时断链呢？机会很小，但是并非绝无可能，我们称这种状态为“绝对孤岛” ( Total Isolation )，同样是会导致脑裂现象。

如何处理绝对孤岛 ( Total Isolation Protection )。一旦发生 FC 和以太心跳同时断链，也就是绝对孤岛状态，那么集群中的众引擎必然处于以下两种场景之一：即

1. 异地站点的所擎确实已经失去行为能力 ( 例如被关机、因无法访问任何存储而自行停止运营、或其他原因 )；或

2. 异地站点的引擎仍在运营，但是两站点之间的通讯断链。

然而引擎对于绝对孤岛状态的发生原因，究竟是站点故障还是通讯断链，并不具备分辨能力。

解决之道，是在客户现场 ( client site ) 实施一个点名服务 ( Quorum Service )，用以协助识别绝对孤岛状态的存在，并避免发生脑裂现象。在绝对孤岛状态下，集群中的两个站点引擎不但各自处于 FC 孤岛状态，同时也失去彼此之间的以太心跳，这时必须借助应用层的点名服务，执行以下的绝对孤岛状态评估步骤，来判断哪一个站点应该继续运营，哪一个站点应该停止运营，或是两者都应该停止运营，才能避免发生致命的脑裂现象:

1. 如果一个引擎无法访问点名服务，它会无条件自行停止运营。

2. 如果一个引擎可以访问点名服务，并且其配置定义属于系统设定之主要站点 ( primary site )，该引擎会继续运营。

3. 如果一个引擎可以访问点名服务，并且其配置定义属于系统设定之次要站点 ( secondary site )，该引擎必须借助点名服务与主要站点 ( primary site ) 之间的当时状态来做决定；若点名服务能够看到主要站点的引擎集群，则该引擎自行停止运营，否则继续。

上述点名服务必须设定于客户现场，并使用和以太心跳不同的网域 ( domain )，以避免与心跳同时断链。

回到运维康通讯

取消订阅

存储厂商
系统集成商

如何让标准的 SAN 存储蜕变为企业级的 HA 解决方案？

企业 IT 专业

如何完善您的 IT 基础设施以实现无间断业务连续性？

HA-AP
高可用引擎
解决方案彩页

欢迎注册！您只需提供简单的联系信息，即可下载。

联系我们：

info@loxoll.com