2025 年を迎える今、デジタルレジリエンスは世界中の IT 運用チームにとって最優先すべき課題とされています。障害が発生した場合、それをどのように特定し復旧するかで、ユーザーとビジネスへの影響範囲が決まります。その上、プロアクティブな最適化に常に努め、ユーザーのデジタル体験を向上させると同時に、顧客に影響が及ぶ問題を未然に防ぐ必要があります。
2024 年の最大規模の障害は、繰り返し発生する課題など、ビジネス上のデジタルレジリエンス向上を担う ITOps チームに多くの教訓をもたらしました。とりわけ件数が多かったのは、設定変更や自動化によって生じた障害です。
この記事では、2024 年の顕著な障害やサービス中断を取り上げ、2025 年にユーザーに優れたデジタル体験を提供するために役立つ重要なポイントを確認していきます。
さらに掘りさげる:2024 年の主要な障害をウェビナーで今すぐ視聴
Microsoft Teams のサービス中断 | 2024 年 1 月 26 日
1 月、Microsoft Teams のサービス提供が 7 時間以上にわたって中断されました。Microsoft の自社ネットワークで生じた問題が、このコラボレーションサービスに影響を与えたのです。
中断時には、アプリケーションのフリーズやログインエラーが発生した、会議のロビーで待たされた、などの事象が報告され、これらは多くのアメリカ人にとって、就業日の早い時間に重なりました。
インシデント中に ThousandEyes が独自で行った観察によると、この障害には Microsoft の自社ネットワークで生じた問題との関連性が見られました。フェールオーバーの実行では多くのユーザーの問題を解消できなかったようですが、その後さらに「ネットワークおよびバックエンドサービスの最適化に尽力」したことで、最終的にサービスは復旧しました。
ThousandEyes でこのサービス中断を確認する | 続きを読む
Meta の障害 | 2024 年 3 月 5 日
3 月 5 日、Meta で障害が発生し、ユーザーが Facebook、Instagram、Messenger、Threads などのサービスにアクセスできなくなりました。プラットフォームはアクセス可能のようでしたが、多くのユーザーが、ログインまたは認証プロセスの次の操作に進めませんでした。
障害の発生後すぐに、Meta はログインサービスに問題があることを確認しました。原因は、ログインシステムに必要な依存関係の 1 つで生じた障害である可能性が高いと判断されました。ThousandEyes の観察では、原因の所在としてバックエンドを挙げています。Meta のシステムはアクセス可能と考えられ、サービス接続までのネットワークパスに、障害の原因となるような重大なネットワーク状態は見られなかったからです。
この障害が示唆しているのは、アプリケーション デリバリ チェーンの一部に問題があるだけで、サービス全体の機能を利用できなくなる可能性があることです。そのため、パフォーマンスや機能の低下を特定するには、デジタルデリバリチェーン全体を徹底的に可視化することが重要です。
Atlassian Confluence のサービス中断 | 2024 年 3 月 26 日
3 月下旬、ワークスペース アプリケーション Atlassian Confluence に問題が発生し、これによって、顧客がサービスにアクセスできなくなり、HTTP 502 Bad Gateway のエラーが表示されるようになりました。
1 時間強の比較的短い障害でしたが、ThousandEyes の分析によると、世界中のユーザーに影響が及んでいました。アプリケーションのフロントエンド Web サーバー(AWS で稼働)に至るネットワークパスをトレースしたところ、ネットワーク接続自体ではなく、バックエンドに問題があることは明らかでした。
こうした障害の場合、エラーメッセージだけでは、半分ほどしか状況を把握できません。根本原因を特定するには、サードパーティにどう依存しているかなどの要因を考察する必要があります。たとえば、クラウド ホスティング プロバイダーの問題を除外できれば、本当の問題の特定に一歩近づくことができます。
Google.com の障害 | 2024 年 5 月 1 日
5 月初旬、Google.com で、検索実行後に HTTP 502 エラーが表示されるという世界規模のサービス中断が、約 1 時間にわたって発生しました。
一般的に、HTTP 502 ステータスコードは、プロキシサーバーがオリジンサーバーに接続できなかったことを示すほか、トラフィックが圧倒的な量に達したことを示す場合もあります。しかし、Google 側がその要求に突然応えにくくなった理由は特定されず、そのような検索トラフィックの流入を引き起こす特別なイベントも発生していませんでした。
ThousandEyes の分析によると、サービスが突然停止する「ライトオン/ライトオフ」のシナリオに当てはまることが明らかになり、検索エンジン自体ではなくバックエンドの名前解決によって問題が生じたか、ポリシーやセキュリティの検証に関連して生じたことが示唆されました。
ThousandEyes でこの障害を確認する | 続きを読む
CrowdStrike のセンサー更新によるインシデント | 2024 年 7 月 19 日
7 月 19 日金曜日の午後半ば、オーストラリアとニュージーランドの組織で問題が発生し、各種業界や大手ブランドから一斉に障害の報告が寄せられました。Windows マシンがブートループした後に、BSOD(ブルースクリーン)に陥ったのです。影響は他の地域にもすぐに広がり、航空会社の予約システム、食料品店、病院サービスで問題が生じました。しかし、これらは氷山の一角に過ぎませんでした。
広範囲に及んだこの障害は、当初、Microsoft に責任があると考えられましたが、問題の共通点が他にも浮かび上がりました。CrowdStrike です。これは、Windows エンドポイントへの攻撃を防御するマネージド検出および対応(MDR)サービスとして利用されています。
CrowdStrike からは、アクションと回避策のガイダンスが IT 管理者向けに公開されました。早期のインシデント後技術レポートも公開され、これによると、インシデントの原因は、ある 1 つの設定ファイルの問題にあり、これが「論理エラーを引き起こし、システムクラッシュとブルースクリーン(BSOD)を発生」させていました。復旧作業は簡単ではない上、マシンを機能させるには IT スタッフが現場で立ち会う必要がありました。ある時点での Microsoft の報告によると、マシン 1 台あたり最大 15 回の再起動が必要になる可能性がありました。
Cloudflare のサービス中断 | 2024 年 9 月 16 日
Cloudflare は世界最大手の CDN プロバイダーの 1 つであるため、Cloudflare に問題が生じると、普及している他のサービスにまで影響が広がります。
9 月 16 日に発生した Cloudflare の障害は、約 2 時間継続し、Zoom や HubSpot などのアプリケーションに影響を与えました。ThousandEyes プラットフォームでは、障害発生中に、米国、カナダ、インドの全エージェントがサードパーティ アプリケーションに接続できないことで、そうした各種アプリケーションへの影響を確認できました。
この例を見ると、特定のユーザーにのみ生じている問題かどうかの見分け方が良くわかります。アプリケーションのサービスデリバリプロセス全体を追跡することで、アプリケーションとその接続先サプライヤーがたどるネットワークパスを把握できます。
ThousandEyes でこのサービス中断を確認する | 分析を読む
Microsoft の障害 | 2024 年 11 月 25 日
11 月下旬に発生した Microsoft の障害は、Outlook Online などのサービスに影響を与えましたが、2 つのフェーズで発生していて、原因を簡単に特定できるものではありませんでした。
問題は、午前 2 時(UTC)頃から始まり、タイムアウト、名前解決の失敗、HTTP 503 エラーメッセージなどの事象が確認されました。サービスの読み込みが遅い、応答が遅れるなどの問題が断続的に生じ、それらは必ずしもエンドユーザーから認識可能ではありませんでした。
1 時間ほどで解決したように思われましたが、4 時間後に再発生し、さらに深刻になりました。ThousandEyes での観察によると、Microsoft ネットワークのエッジでパケット損失が増加していて、サービスへの接続時に輻輳も増大していました。
その後の Microsoft の説明によると、この問題では、ある設定変更が原因で「サーバー経由でルーティングされた再試行要求の流入」が生じていて、「正常でない状態のマシンサブセットを手動で再起動」することで障害から復旧されました。
OpenAI の障害 | 2024 年 12 月 11 日
あと少しで、AIに関する障害なしで1年を乗り切るところでした。惜しいところでした。
しかし、12 月に発生した OpenAI の障害は、ChatGPT と新しい生成動画サービス Sora に影響を及ぼしました。ユーザーの報告によると、ページが一部しか読み込めず、詳細情報を要求すると HTTP 403 エラーメッセージが表示されました。
ThousandEyes の観察では、バックエンド アプリケーションに問題があると判断され、その後 OpenAI もそれを認めました。この判断が発端となり、テレメトリサービスの新規展開によって「Kubernetes コントロールプレーンが意図せず過負荷になり、障害が連鎖的に発生した」ことが明らかになりました。
ThousandEyes でこの障害を確認する | 続きを読む
2024 年の重要なポイント
お気付きのように、2024 年の主要な障害のほとんどが、バックエンドの設定変更が意図しない結果を招いたことや、自動化システムの障害によるものでした。
ITOps チームでは、サービスプロバイダーによる誤った設定変更を完全には管理できませんが、サービスデリバリパスの全体的な可視性が向上すれば、発生したエラーの原因を迅速に特定できます。こうしたアプローチなら、障害や劣化したコンポーネントについて貴重なインサイトを得られ、変更のロールバック、代替リソースへのリダイレクト、緊急時対応策の実装といった適切なアクションを実行できます。また、サービスデリバリチェーンを徹底的に把握することで、定期的なサービス最適化、デジタル体験の向上、デジタルレジリエンスの強化も行えます。
2024 年に発生した重大な障害の複数で観察されたように、エラーメッセージからは通常、現状を把握するヒントしか得られません。それのみによる原因特定は不可能なのです。2024 年の主要な障害からは、次の教訓が得られるでしょう。「デジタルレジリエンスの確保は、現在発生している、または発生しうる問題を、サービスプロバイダー自身が認識する前に把握できるかどうかにかかっている」
障害に関するその他のインサイト
こうした障害と、それによって得た重要な教訓は、「2024 年の主要な障害」オンデマンドウェビナーで詳しくご覧いただけます。また、インターネットの正常性および障害に関する最新情報を年間を通じて入手するには、Apple Podcasts、Spotify、SoundCloud など、お好きなポッドキャストでの「インターネットレポート」の登録をお勧めします。
無料トライアルを今すぐ始めましょう。ThousandEyes がデジタルレジリエンス向上にいかに役立つかをご体験いただけます。