应对云计算中断的六个步骤--陈奇网络工作室

许多公司都希望公共云为许多APP类型提供灵活性、快速可扩展性和可靠性，但公共云并不完美。各主要云计算提供商都经历了内部系统或存储以及网络连接等外部资源的中断。业务中断对任何企业都是毁灭性的打击，云计算中断还可能影响数百用户的业务。

所有这些都强调了公共云的一般现实。用户必须采用灾难恢复计划，就像在内部部署数据中心一样。通过制定计划并在发生云计算中断时采取措施，可以减轻或加重对企业的影响。为了顺利度过公共云的中断，需要考虑以下六个重要步骤。

步骤1 :制定灾难恢复战略

应对云计算中断的第一步是制定和实施灾难恢复( DR )计划，并在灾难发生之前长期实施。云计算提供商提供了许多服务和资源，但用户必须为每个工作负载创建、部署、配置和监控这些服务和资源。

实际的灾难恢复战略可能会根据工作负载需求和对企业的重要性而发生根本性的变化。日常APP应用非常适合在辅助站点存储常规数据备份和虚拟机快照，包括其他提供商区域、其他云计算提供商甚至本地存储资源。

高级灾难恢复计划允许在其他已部署的区域中使用空闲的备用实例，并准备在主要实例关闭时进行接管。更全面的灾难恢复策略还包括分布式群集，可以在多个云或可用性区域中运行重复的工作负载实例。例如，您可以使用负载平衡器在多个实例之间分布通信，并在该区域出现云故障时重定向通信。

这些复制工作的极端变化涉及跨两个或多个云平台(如AWS、Microsoft Azure、Azure和Google云平台)进行冗馀工作的模糊抖动，以避免可能的云计算中断

第二步：沟通以实现云计算的透明度

当事情发生变化的时候，你需要知道云中发生了什么。传统上，云计算提供商对服务中断不透明，但随着企业将更有价值的工作负载委托给公共云，这种情况正在改变。企业需要更多的云计算透明度，提供商也改善了与用户的交流，对中断的性质和当前状态提供了更及时的见解。

例如，AWS公共云提供的服务运行状况控制板显示所有服务的当前状态，而微软的Azure公共云提供类似的“Azure状态”页面。灾难恢复决策依赖于企业对灾难及其严重性的了解，而提供商估算灾难持续时间——所有这些都将随着云计算透明度的提高而得到改善。

但是不要停留在那里。向内部用户或客户提供中断的详细信息也很重要，因为业务和用户群取决于受影响的工作负载。通知停机时间、停机时间对工作负载的影响以及解决停机时间的步骤。

步骤3 :确定灾难恢复计划的业务价值

确定实施灾难恢复计划需要执行的操作。有些计划是自动的。例如，关键工作负载通常由某种类型的群集保护，即使节点(或实例)出现故障，群集也必须继续运行。但是，辅助工作负载灾难恢复策略可能需要人为干预或分散步骤，例如恢复和恢复快照，以及切换到备份实例。

如果需要人为干预，则必须考虑与恢复过程相关的活动和费用，并确定开始恢复的业务价值。询问恢复工作负载是否比等待云计算提供商解决中断更费时间和成本。来自云计算提供商的通信对这个决定有很大的影响。

步骤4 :实施灾难恢复计划

在许多情况下，任务关键型灾难恢复计划是完全自动化的，管理员可能不需要执行任何有意的操作。例如，即使在云计算中断期间节点不可用，跨AWS云计算可用性区域或Azure云区域的群集也可能继续运行。

但是，不太重要的工作负载可能需要采取有计划的行动。使用准备好的脚本、模板或其他资源，调整适当的灾难恢复响应。如果企业决定启动需要人为干预的灾难恢复计划，管理员必须立即采取行动。这包括在云计算中断时从快照重新启动，或将流量重定向到备用实例。

灾后恢复计划需要定期测试。开展测试演练，确保适当的流程和资源以加快工作负载恢复。测试还将验证相关资源的配置，包括IP地址、相关驱动程序和依赖关系。如果恢复在常规测试中正常运行，则很可能在实际灾难恢复中正常运行。

步骤5 :监测备灾战略

无论实施灾难恢复策略所需的工作量或自动化程度如何，验证恢复的工作负载是否正常运行仍然非常重要。管理员必须比较在灾难恢复状态下运行的工作负载的性能与在正常状态下运行的相同工作负载的性能。

亚马逊云和谷歌堆栈驱动程序等APP应用程序监控工具重点关注工作负载的运行状况。这些工具还收集日志、指标和事件，并中继有关恢复的工作负载的操作数据。此外，在云计算停止运行的情况下，它将继续监测工作负载的性能和可用性。

步骤6 :云计算中断的事后评估

云计算的中断对企业来说可能是痛苦的，但不会永远持续下去。当云计算提供商解决中断并恢复正常工作负载操作时，组织必须对事件进行事后评估，以评估灾难恢复能力。

企业必须考虑灾难恢复计划的效果，并根据需要调整计划。这可能包括更改分配给APP应用的灾难恢复保护级别、细化灾难恢复计划的实施流程，以及可能减少未来云计算中断影响的其他更改。

作者： Stephen J. Bigelow来源：企业网D1Net