Analyses des pannes

Quelles pannes Internet ont perturbé l'année 2022? Découvrez comment mieux se préparer en 2023.

Par Internet Research Team
| | 11 minutes de lecture

Cet article est également disponible pour : United States (English), Germany (Deutsch), Spain (Español), Italy (Italiano) & Japan (日本語).

Résumé

En cette nouvelle année, nous revenons sur les pannes Internet qui ont perturbé l'activité des entreprises en 2022, qu'il s'agisse d'annulation de vols, de problèmes de connexion ou de communication, et nous vous dévoilons comment mieux préparer vos équipes IT en 2023.


Dans le monde entier, chaque jour apporte son lot de pannes, importantes ou superficielles. L'année 2022 n'a pas fait exception : les incidents ont nui à l'expérience des utilisateurs et parfois porté préjudice aux activités des entreprises. Grâce à des données indépendantes des réseaux sous-jacents qui offrent une visibilité sur l'ensemble d'Internet et du cloud, ThousandEyes a relevé des milliers de pannes l'année dernière. Nous partageons nos recherches avec nos clients pour qu'ils puissent adopter une approche proactive et, si possible, réduire l'impact de ces interruptions. C'est pourquoi nous avons dressé une chronologie qui revient sur certains des événements observés et des leçons tirées, afin d'aider votre entreprise à rester connectée et opérationnelle en 2023.


British Airways, 25 février 2022

Ce qui s'est passé : une panne des services en ligne de British Airways a entraîné l'annulation de centaines de vols et perturbé les activités de la compagnie, notamment à London Heathrow, un des aéroports le plus fréquenté au monde. Nos outils de supervision indiquent que cet incident s'est produit lorsque des serveurs d'applications ont cessé de répondre et qu'il ne s'agissait pas d'un problème lié au réseau.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : en mettant en place une architecture où les systèmes back-end ne constituent pas des points de défaillance unique, il est possible de prévenir une réaction en chaîne, comme celle observée chez British Airways qui a retenu toute sa flotte au sol.

Twitter, 28 mars 2022

Ce qui s'est passé : Twitter a été rendu inaccessible après qu'un fournisseur russe d'accès à Internet et de communications par satellite a bloqué le trafic en annonçant l'un des préfixes de Twitter. Si les erreurs de configuration BGP sont fréquentes, elles peuvent aussi servir à bloquer le trafic de manière ciblée, et il n'est pas toujours facile de savoir s'il s'agit d'une situation accidentelle ou intentionnelle. 

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : votre entreprise a peut-être mis en place une infrastructure RPKI pour repousser les attaques BGP, mais ce n'est pas forcément le cas de votre opérateur télécom. C'est un facteur à prendre en compte dans le choix de votre FAI.

Atlassian, 5 avril 2022

Ce qui s'est passé : de nombreux développeurs utilisent les solutions Jira, Confluence et OpsGenie d'Altassian. À cause d'une erreur dans un script de maintenance, ces services ont été victimes d'une panne de plusieurs jours qui a affecté environ 400 clients de l'entreprise. Même s'il s'agit d'un nombre d'utilisateurs relativement restreint, les mises à jour de la page d'état des services Atlassian étaient trop génériques et pouvaient induire en erreur les clients qui n'étaient pas exactement dans la même situation.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : une page relatant l'état des services ne suffit pas pour communiquer sur les pannes. Les clients peuvent rester plusieurs heures, voire plusieurs jours, sans réponse quant à la gravité de la panne et à son délai de résolution.

Rogers Communications, 8 juillet 2022

Ce qui s'est passé : à cause d'un problème interne de routage, Rogers Communications a dû retirer ses préfixes. Pendant presque 24 heures, ce fournisseur de niveau 1 s'est donc retrouvé hors ligne. Cette panne a affecté des millions d'utilisateurs et de nombreux services essentiels partout au Canada.

Impact géographique : Amérique → Lire l'analyse de la panne

Enseignement : quelle que soit sa taille, aucun fournisseur n'est à l'abri d'une panne. Pour les services essentiels, comme ceux des hôpitaux ou des banques, prévoir un réseau de secours peut contribuer à réduire la durée et la portée des interruptions.

Internet-outages-disrupted-2022-prepare-2023-figure-1.png
Figure 1. Pertes de paquets constatées pour les zones géographiques connectées à un client de Rogers Communications

Amazon Web Services, 8 juillet 2022

Ce qui s'est passé : cette panne d'AWS a été causée par une panne d'électricité dans la zone de disponibilité et a eu des répercussions sur des applications telles que Webex, Okta et Splunk.Toutefois, les utilisateurs ou les services n'ont pas tous été touchés de la même manière : par exemple, les composants Webex situés dans les data centers de Cisco sont restés opérationnels.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : privilégiez les architectures de zone de disponibilité redondante, car elles sont en général doublement actives et évitent de devoir recourir à un plan de secours.

Internet-outages-disrupted-2022-prepare-2023-figure-2.png
Figure 2. Interfaces affectées dans le réseau AWS

Google, 9 août 2022

Ce qui s'est passé : Google Search et Google Maps sont devenus indisponibles pour les utilisateurs du monde entier, ceux qui tentaient d'accéder aux services recevant des messages d'erreur. Les utilisateurs situés aux États-Unis en l'Australie, mais aussi au Japon et en Afrique du Sud n'ont pas pu charger les sites ou exécuter les fonctions. Les applications dépendantes du fonctionnement des logiciels de Google ont également cessé de fonctionner pendant cette panne exceptionnelle. 

Impact géographique : mondial → Analyser cette panne avec ThousandEyes | Lire l'analyse de la panne

Enseignement : il est non seulement important de superviser les interfaces de vos applications, mais aussi les dépendances critiques en termes de  performances qui les optimisent.

Internet-outages-disrupted-2022-prepare-2023-figure-3.png
Figure 3. Une panne a provoqué l'indisponibilité des propriétés du domaine Google dans de nombreux pays

Zoom, 15 septembre 2022

Ce qui s'est passé : cette courte panne a affecté les utilisateurs du monde entier, qui ne pouvaient plus se connecter ni participer à leurs réunions Zoom. Des consultations de télémédecine ou des entretiens d'embauche reprogrammés ne sont que deux exemples de la façon dont les utilisateurs ont été perturbés par ce problème de l’application.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : le réseau n'est pas toujours responsable du problème, parfois il s'agit de l'application elle-même. Avoir de la visibilité sur le réseau et les applications permet d'éviter la confusion et les accusations à tort lors de l'analyse des causes premières.

Zscaler, 25 octobre 2022

Ce qui s'est passé : les utilisateurs de Zscaler Internet Access ont été confrontés à des erreurs de connexion ou de fortes latences pour communiquer avec les proxys Zscaler. Dans une architecture Secure Service Edge (SSE), le proxy est non seulement responsable du trafic web, mais aussi d'outils SaaS essentiels comme Salesforce, ServiceNow et Microsoft 365, que cet incident aurait pu rendre inaccessibles.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : Security Services Edge (SSE) est une autre pièce du puzzle Internet à prendre en compte lorsque les choses tournent mal. Le fait de disposer de données indépendantes du réseau pour des scénarios complexes comme celui-ci peut permettre une identification plus rapide du problème et de sa résolution.

Internet-outages-disrupted-2022-prepare-2023-figure-4.png
Figure 4. Jusqu'à 100 % de paquets perdus pour le trafic vers les proxys Zscaler

WhatsApp, 25 octobre 2022

Ce qui s'est passé : pendant deux heures, une panne a empêché les utilisateurs de WhatsApp d'envoyer ou de recevoir des messages. Liée au dysfonctionnement du service d'application back-end, la panne s'est déclenchée à une heure de pointe en Inde, où l'entreprise compte des centaines de millions d'utilisateurs, rendant toute communication personnelle ou professionnelle impossible.

Impact géographique : mondial → Lire l'analyse de la panne

Enseignement : un fournisseur de SaaS qui rencontre un tel succès doit constamment améliorer ses systèmes. Les boucles de rétroaction immédiate sont essentielles, car elles permettent de rectifier rapidement les erreurs. Pour résoudre les problèmes techniques plus vite, il est important de pouvoir compter sur des données qui permettent d'écarter la responsabilité du réseau en cas d'erreur du système de production.

Amazon Web Services, 5 décembre 2022

Ce qui s'est passé : ThousandEyes a constaté d'importantes pertes de paquets entre deux sites internationaux et la région « us-east-2 » d'AWS pendant plus d'une heure. L'incident a affecté les utilisateurs qui se connectaient via des FAI aux services de l'infrastructure cloud de cette région.

Impact géographique : mondial → Analyser cette panne avec ThousandEyes | Lire l'analyse de la panne

Enseignement : en matière de cloud public, il s'agit de superviser non seulement les applications, mais également les composants de l'infrastructure cloud, en particulier les régions et les zones de disponibilité du cloud, ou les services logiciels qui en dépendent.

Quel que soit le FAI ou le fournisseur cloud, les interruptions et les pannes sont inévitables. Mais si vous concevez une infrastructure résiliente, vous pouvez préserver vos applications de leurs retombées négatives et améliorer l'expérience de vos utilisateurs.


Dans notre webinar, « Les pannes importantes de 2022 : analyses et enseignements ». Nos experts reviennent sur les pannes de l'année écoulée et expliquent comment prévenir les défaillances ou s'y préparer en 2023. Regardez le webinar ici.


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail