与其担心系统崩溃，不如安排一次并学会避免它们

根据CA Technologies的asurvey的数据，由于停机时间，北美和欧洲的公司损失了超过265亿美元的收入，这很2010年!

计算系统中断的货币成本有多种方法，但对公司声誉的损害是不可估量的。当微软的Azure云计算服务最近经历一次重大中断时，专家推测这可能是对这家软件巨头试图与竞争对手谷歌和亚马逊竞争的重大打击。

优秀的首席执行官和首席信息官拒绝接受哪怕是小停机时间的借口，但要达到5个9的可靠性并不容易。尽管如此，无论公司的系统和业务多么复杂，总有办法设计和提供更高的可靠性和服务质量。以下是首席执行官们为提高公司的可靠性而需要采取的行动:

1.别等停电了。创建一个。

如果你等待客户做一些导致失败的事情，那你就太迟了。例如，Netflix已经使用他们的 “猿猴军” 解决了意外的停机问题，这是一套测试应用程序故障恢复能力的自动化工具。但是，对于大多数公司而言，处理此问题的最佳方法是保持简单。

鼓励您的运营和开发团队安排定期会议并手动创建中断。注入失败揭示了实现问题，这些问题降低了弹性，同时主动发现了可能成为中断根本原因的缺陷。

定期中断只需将团队定期聚集在一起即可建立强大的协作文化。共同努力修复人为的故障将与一种想法作斗争，即可以通过解释忽略或证明实际故障是合理的。

没有一个好的工程师可以解决相同的问题，而无需在此过程中学习。确保负责解决事件的团队有时间进行全面的事后调查。

授权您的团队分析哪些有效，哪些无效，而不会迫使他们确定根本原因。通常，人为错误是这些对话的重点，但这并不健康。无可指责的回顾允许团队发现真正的问题并进行积极的调整。

当系统恢复运行或每个人都同意 “根本原因” 时，企业希望快速行动，但抵制转向其他问题的诱惑。投入所需的时间来了解您的系统和团队是如何工作的。将其视为进行实时决策所需的上下文学习的机会，这些决策将改善公司的平均解决时间。

如果你没有通过工具、培训和激励措施来支持你的销售团队来实现他们的目标，人们会认为你疯了。尽管ops和开发团队在确保您的客户从您的公司获得价值方面发挥了关键作用，但与面向客户的团队相比，ops和开发团队通常受到的关注较少。

为这些员工提供基础设施和工具，以实现最佳绩效。其中包括最新的运营管理工具，培训的时间和资源以及实现目标的激励措施。如果您没有为他们提供必要的支持和认可，您如何期望他们提供具有高可用性的高价值产品？

即使是短暂的停机时间也会对你的底线和市场认知产生重大影响，但是一旦你致力于支持你的工程团队，你就可以更好地为正常运行时间设定更高的标准。构建，购买合作伙伴来获得你需要的技术和技能。

不幸的是，许多公司仍然在没有冗余的情况下使用本土运营管理系统，并且仍然使用不同的工具和手动流程来穿越事件生命周期。专注于降低运营团队成本而不是从一开始就设置正确的文化根本没有意义。仅花费在修复上的时间将很快成为贵公司的更大成本。您的产品和服务将因此受到影响。

在当今永远在线的世界中，了解可靠性重要性的首席执行官们不会等到停电后才能改善运营。他们不会忽视解决事件带来的丰富学习。他们不像 “后台” 那样对待运营和开发团队。高度可靠的公司的首席执行官投资于他们的运营基础设施、流程和人员，因为他们关心业务的增长和客户的忠诚度。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。