I risultati del Report sulle prestazioni del cloud 2022

ThousandEyes ha pubblicato la terza edizione del Report sulle prestazioni del cloud, in cui esaminiamo e confrontiamo i dati delle prestazioni e le architetture di connettività dei tre principali provider di cloud pubblico: Amazon Web Services (AWS), Microsoft Azure e Google Cloud. Partendo da una serie di mappature e metriche di rete rilevate nell'arco di un triennio, il Report sulle prestazioni del cloud fornisce un quadro comparativo e analitico neutrale delle prestazioni e dei comportamenti dei principali provider di cloud pubblico.

Dall'ultima edizione di questo report, pubblicata nel 2019, l'impiego del cloud è cresciuto esponenzialmente. Oggi, i carichi di lavoro basati sul cloud supportano una mole enorme di servizi digitali e ogni degrado delle prestazioni può ripercuotersi a catena su un numero maggiore di servizi e dipendenze rispetto al passato. La visibilità è la chiave con la quale i team delle operazioni IT (ITOps) possono individuare il momento, la causa e l'origine di ogni degrado di servizio in ambienti di applicazioni sempre più distribuite, incentrate sulle API e dipendenti dal cloud. I dati del Report sulle prestazioni del cloud vanno intesi come una guida per aiutare le aziende ad acquisire visibilità sulle proprie implementazioni e dipendenze cloud e non hanno l'obiettivo di consigliare un provider rispetto ad altri.

Sostanzialmente, la conoscenza delle specificità dei comportamenti e delle anomalie della rete dei provider di servizi cloud può indirizzare i team IT verso scelte migliori in materia di cloud.

Il Report sulle prestazioni del cloud illustra i metodi di gestione delle reti da parte dei provider e le differenze tra prestazioni di rete considerate buone o meno, aiutando a rispondere a domande strategiche e tattiche fondamentali, come:

Quali sono i punti di visibilità che mi permettono di conoscere il livello delle prestazioni e la qualità dei miei servizi cloud?
Come posso pianificare con sicurezza l'implementazione di stack applicativi resilienti basati sul cloud?
Come posso ottimizzare le mie applicazioni secondo la connettività e i comportamenti del mio provider?
Quali domande dovrei porre al mio provider di servizi cloud per ottenere prestazioni ottimali e scalare secondo le esigenze?

Lo stato attuale dell'ambiente cloud

I servizi cloud sono ormai capillari nelle aziende e le reti cloud pubbliche sono una parte fondamentale della loro infrastruttura. L'ampia adozione del modello di business SaaS da parte delle aziende ha complicato ulteriormente il lavoro dei team ITOps addetti alla risoluzione dei problemi. Questa complessa rete di interdipendenze può ostacolare la definizione, da parte dei team IT, di strategie affidabili di valutazione, monitoraggio e ottimizzazione specifiche per le loro applicazioni. A tutto ciò si aggiunge l'elevata centralizzazione nell'utilizzo dei servizi cloud. Un'interruzione del cloud può avere ampie ripercussioni e toccare molti utenti. Tuttavia, i team ITOps o di ingegneri responsabili dell'affidabilità delle sedi (SRE) possono ancora incontrare enormi difficoltà nell'individuarne efficacemente la causa. A complicare ulteriormente le operazioni c'è, infine, il frequente utilizzo da parte delle aziende di cloud pubblici diversi o di una combinazione di cloud pubblici e privati.

Gli architetti IT devono conoscere il grado di affidabilità del loro provider di servizi cloud. Tutti i provider possono accusare anomalie delle prestazioni, per cui occorre chiedersi quali ne siano le origini e le cause. Oggi, l'implementazione di servizi digitali modulari e distribuiti basati sul cloud richiede una conoscenza del comportamento e della connettività da più angolazioni. Gli architetti IT devono conoscere le risposte a domande come:

Com'è la connettività di rete del provider di servizi cloud e quali prestazioni offre nel mio contesto?
Com'è il peering tra il mio provider e altri provider di servizi cloud e di transito?
Quali sono le prestazioni tra le regioni del cloud e tra le zone di disponibilità del mio provider?

I risultati del report

Ecco alcuni punti salienti dei risultati emersi. Per i dettagli, invitiamo alla lettura del Report sulle prestazioni del cloud.

Risultato 1: le decisioni sull'architettura di connettività prese dai provider di servizi cloud possono incidere sulle prestazioni e sull'operatività dei loro clienti. Le architetture di connettività dei tre principali provider di cloud erano diverse. E diverse erano le modalità di pubblicazione degli endpoint di servizio, oscuramento dei percorsi underlay e utilizzo dell'infrastruttura condivisa per il backbone. Tali differenze possono avere ripercussioni significative per i clienti.

Risultato 2: le regioni cloud nei mercati maturi registrano buone prestazioni del backbone, mentre altre regioni del mondo, come l'Asia, hanno accusato maggiori problemi. Dal 2019, i tre provider in esame hanno ottimizzato sensibilmente le prestazioni dei loro backbone; tuttavia, abbiamo continuato a riscontrare variazioni di latenza importanti.

Risultato 3: tutti i provider di servizi cloud riscontrano problemi di prestazioni relative al traffico proveniente dagli utenti della Cina continentale. La causa è il Grande Firewall della Cina, il cui attraversamento genera una perdita di pacchetti e una latenza maggiore. Hong Kong sembra ancora esclusa dal Grande Firewall della Cina, ma ha visto un sensibile aumento della perdita di pacchetti in entrata a partire dal 2021.

Risultato 4: i tre provider hanno dimostrato prestazioni molto buone tra zone di disponibilità diverse, con una latenza molto inferiore alla soglia auspicata di 2 millisecondi in gran parte delle regioni. In particolare, alcuni provider si sono mantenuti al di sotto di questa soglia di latenza più regolarmente rispetto ad altri.

Risultato 5: in genere, il traffico tra i principali provider di servizi cloud veniva instradato direttamente, evitando Internet. Ciò dimostra quanto i principali provider di servizi cloud siano ben interconnessi e come, in alcuni casi, le prestazioni tra cloud competessero con quelle all'interno del cloud per regioni in area geografica simile.

Leggi il Report sulle prestazioni del cloud per scoprire di più.

Progettare l'architettura per le prestazioni ottimali nel cloud

Le prestazioni del cloud sono diventate più importanti che mai, perché oggi le applicazioni dipendono largamente da esso. Gli stack di applicazioni modulari richiedono la bassa latenza. Il cloud è al centro della rete di interdipendenze tra applicazioni distribuite, microservizi e API SaaS che supportano i servizi digitali. Inoltre, gli architetti vogliono progettare servizi che siano ad alta disponibilità elevata, resilienti ed efficienti in termini di costi. Gli obiettivi di alta disponibilità determinano l'uso di stack di applicazioni con bilanciamento del carico per istanze multiple, progettazioni di replica dei dati con ridondanza geografica e architetture che comprendono più regioni.

Pertanto, per misurare le prestazioni delle reti cloud, non basta una sola metrica, ma serve un'analisi, da più angolazioni, di parecchi dati differenti. La connettività interregionale, ad esempio, può variare notevolmente a seconda della metrica di rete, del provider e dell'area geografica. Conoscere le prestazioni delle interconnessioni rilevanti è fondamentale quando si pianifica l'implementazione di nuove applicazioni.

Il set di dati utilizzato nel Report sulle prestazioni del cloud comprende le metriche relative a perdita, latenza, jitter, MTU e i dati sulla topologia dei percorsi in entrata e in uscita per le misurazioni relative agli utenti finali, al multicloud e a regioni e zone di disponibilità diverse. Queste quattro categorie di misurazioni abbracciano i diversi scenari d'uso che interessano gli utenti e gli operatori di applicazioni basate sul cloud.

Le misurazioni relative agli utenti finali

L'Internet pubblica può incidere molto sulle prestazioni delle applicazioni basate sul cloud. Le misurazioni relative agli utenti finali forniscono ai clienti che usano i servizi di piattaforma e cloud IaaS informazioni sulla modalità di connessione a Internet delle diverse sedi dei provider di servizi cloud e sulle prestazioni dei percorsi end-to-end per le diverse sedi.

Questa visibilità consente agli architetti che implementano i nuovi servizi di rispondere a domande come: per quanto tempo il traffico resta sulla rete Internet pubblica prima di entrare nella rete del provider di servizi cloud? I percorsi Internet più lunghi incidono sulle prestazioni globali? Sebbene i provider di servizi cloud migliorino continuamente i loro backbone e peering, tra i provider principali esistono differenze di prestazioni a livello regionale. Conoscere queste informazioni può aiutare a prendere le decisioni giuste nella pianificazione e implementazione delle applicazioni.

Le misurazioni relative a zone diverse

I tre provider di servizi cloud analizzati sono stati oggetto anche di misurazioni relative a zone di disponibilità (AZ) diverse. In genere, si utilizza l'architettura applicativa cloud per zone diverse al fine di garantire la resilienza. Gli architetti delle applicazioni implementano stack applicativi in progettazioni con bilanciamento del carico ad alta ridondanza distribuiti in diverse zone di disponibilità fisica. Quando una zona di disponibilità riporta un errore, l'applicazione resta disponibile. Si pensi, ad esempio, a una tipica progettazione applicativa attiva-attiva con più istanze dello stesso stack applicativo distribuito in zone di disponibilità diverse e sincronizzazione dei dati in tempo reale tra le istanze. In questo scenario, ogni millisecondo diventa importante per via di un possibile accumulo di latenza durante una sessione dell'applicazione.

Per quanto, di norma, i provider puntino a tempi di risposta inferiori a 2 millisecondi tra le zone, una certa variabilità è sempre possibile. I dati di ThousandEyes sono stati utilizzati per misurare il valore e la natura di questa variabilità o anomalie per ciascun provider di servizi cloud analizzato. La variabilità è stata riscontrata non solo nei valori di latenza, ma anche in parametri quali la frequenza e la durata.

Le misurazioni relative a regioni diverse

Le architetture applicative che comprendono regioni diverse si usano principalmente per affrontare i problemi di latenza. In altre parole, più l'implementazione di applicazioni e contenuti è vicina alla sede dell'utente, più la sua esperienza migliora. La progettazione di servizi di back-end più vicini a quelli di front-end e la sincronizzazione dei dati tra le regioni consentono di ridurre la latenza dell'applicazione.

Oltre agli scenari d'uso tecnici, le aziende possono decidere di ricorrere alla connettività su regioni diverse anche per esigenze di business. Ad esempio, potrebbe essere necessario implementare pod applicativi a ridondanza geografica attiva-standby, oppure archiviare i dati dei clienti in una regione geografica anziché in un'altra.

Le prestazioni del backbone del provider di servizi cloud sono assolutamente fondamentali in questi scenari. La nostra analisi ha rilevato che le regioni cloud nei mercati più maturi hanno registrato prestazioni del backbone affidabili, cosa che non si può dire di altre regioni (in particolare in Asia e Oceania). L'analisi di questo set di dati ha evidenziato che i provider di servizi cloud hanno eseguito alcune ottimizzazioni in diverse regioni durante questo triennio e che le fluttuazioni di latenza sono frequenti.

Le misurazioni relative al multicloud

Le applicazioni moderne si affidano spesso a più cloud pubblici o privati, sia per scelta progettuale sia a causa di dipendenze da servizi di terze parti presenti nelle diverse reti dei provider di servizi cloud. Le applicazioni che utilizzano framework modulari sono incentrate sulle API, il che significa che le comunicazioni tra API sono un'operazione tipica del flusso applicativo. Se l'API di un provider di servizi cloud dialoga con l'API di un altro provider, è importante conoscere le caratteristiche della connettività di rete e il livello delle sue prestazioni.

Ai team che pianificano implementazioni basate sui servizi cloud può interessare sapere se l'interconnettività tra una coppia di provider di servizi cloud sia migliore rispetto a quella di un'altra coppia per le loro specifiche sedi o se le latenze tra regioni di provider diversi soddisfino le loro esigenze. I nostri dati mostrano che, in genere, il traffico tra due provider di servizi cloud viene instradato in modo diretto, senza passare dall'Internet pubblica; il che dimostra l'efficacia del peering tra i principali provider. Questa interconnettività può essere vantaggiosa per le prestazioni del traffico multicloud.

Conclusioni

Dalla nostra analisi dei dati raccolti sul cloud emergono tre considerazioni principali che i professionisti dell'infrastruttura e delle operazioni (I&O) dovrebbero tenere presenti quando pianificano e gestiscono gli ambienti e le dipendenze del cloud.

Non è insolito che i servizi cloud riscontrino problemi di prestazioni. I provider di servizi cloud continuano a espandere la loro presenza e le loro capacità globali. La manutenzione ordinaria fa parte del quotidiano e nessun provider è esente da problemi. Mentre le interruzioni di grande entità fanno notizia, i più frequenti problemi di prestazioni e disponibilità su scala ridotta possono essere difficili da cogliere e identificare e influenzano sensibilmente l'esperienza dell'utente. Ogni team dovrebbe integrare un piano di pronta risposta ai problemi di ogni entità nella propria strategia di gestione del cloud.

I provider di servizi cloud gestiscono le loro reti secondo le loro priorità e preferenze. I loro metodi di ottimizzazione e assegnazione di priorità al traffico, su reti spesso condivise, variano e non è detto che il modo in cui un provider di servizi cloud progetta e ridimensiona la sua rete vada bene per gli scenari d'uso di tutti i clienti. I responsabili IT devono conoscere queste priorità e preferenze, devono sapere se sono adeguate alle loro esigenze e quali implicazioni possono avere.

Lo stato del cloud è tutt'altro che stabile. Le reti cloud si evolvono continuamente, i provider sviluppano ed espandono la loro infrastruttura e aggiungono sedi, servizi e connettività ulteriori. Le prestazioni offerte da un provider in una data regione possono variare sensibilmente da un anno all'altro. La propria strategia operativa deve tenere conto di questa mutevolezza. Analogamente, è fondamentale dotarsi di una visibilità continua e persistente, perché le viste istantanee delle prestazioni potrebbero presto non riflettere più le condizioni attuali.

Vuoi saperne di più? Scarica una copia gratuita del Report sulle prestazioni del cloud per leggere l'analisi dettagliata degli esperti sulle prestazioni e sulla connettività dei provider di servizi cloud.

Ricerca su Internet e Cloud