目次:
それらを回避するための最大の努力にもかかわらず、ITインシデントは仕事の避けられない部分です。 今日のシステムは緊密に結合され、ますます複雑になっています。可動部品が増えると、物事がうまくいかなくなる可能性が高くなります。
これが、サービスの可用性を高め、障害に対する回復力を高めるために、ますます多くの組織がマイクロサービスに移行している理由の1つです。 しかし、これらはモノリシックアプリケーションを破壊するための大きな前提ですが、回復力を念頭に置いて明示的に設計されていない限り、障害のリスクを潜在的に悪化させる可能性もあります。
失敗の準備
分散システムには本質的に混oticとした性質があるため、サービスは障害を予測するだけでなく、障害が発生した場合に自動的に回復するように開発する必要があります。 つまり、定期的に障害を引き起こし、エンドユーザーへのサービスを中断することなく、システムが混乱を処理できるようにします。 これを実現するには、テスト環境で本番のようなトラフィックをシミュレートする機能が必要です。