All’inizio di questa settimana, i Web Service di Amazon hanno spesso di funzionare per alcune ore, provocando problemi a numerosi siti web e servizi on-line, compresi quelli della piattaforma iCloud di Apple. Poche ore fa, Amazon ha spiegato nel dettaglio cosa è successo, individuando anche l’errore umano che ha provocato il malfunzionamento.
Sul suo blog ufficiale, Amazon ha spiegato che il team dell’Amazon Simple Storage Service ha eseguito un processo di debug per scovare un problema che causava rallentamenti per la piattaforma di pagamento S3. E’ stato durante questo processo che un membro del team S3 ha eseguito un comando non corretto e ha rimosso un insieme più ampio di server rispetto a quanto previsto originariamente:
I server che sono stati inavvertitamente rimossi supportavano altri due sottoinsiemi di servizi S3, e uno di questi gestiva gran parte delle informazioni di tutti gli oggetti S3 della regione. Questo sottosistema era ed è necessario per servire tutte le richieste GET, LIST, PUT e DELETE
Amazon spiega che i sottoinsiemi S3 sono progettati per supportare la rimozione o il fallimento di un numero notevole di servizi e server, senza che ci sia alcun impatto per i clienti, ma il processo di riavvio dei server spenti per errore, e i relativi controlli di sicurezza, hanno richiesto più tempo del previsto.
Al fine di evitare che questo problema si verifichi anche in futuro, Amazon ha modificato i suoi sottoinsiemi per gestire meglio i server che hanno problemi in termini di velocità ed accelerare il processo di riavvio e di controllo. Amazon ha anche ripartizionato gli indici dei sottoinsiemi, per dividerli in sezioni più piccole e accelerare i tempi di recupero.
L’interruzione dei Web Service di Amazon ha avuto un impatto significativo su tutto il web e su diversi servizi internet, soprattutto negli Stati Uniti. Anche diversi servizi iCloud di Apple hanno smesso di funzionare per milioni di utenti.