Incidenti e la dashboard sull'integrità del servizio Google Cloud

La dashboard di Google Cloud Service Health (CSH) fornisce informazioni sullo stato dei servizi Google Cloud organizzati per area geografica e impostazioni internazionali globali.

Incidente grave

L'impatto di un incidente grave si estende a due o più dei seguenti scenari:

  • Più servizi
  • Più aree geografiche
  • Più ore
  • Più clienti

Nel raro caso in cui si verifichi un incidente grave, agiamo con urgenza per risolvere eventuali problemi.

Durante un incidente grave, lo stato del problema viene comunicato tramite la Dashboard dello stato di Google Workspace e la Dashboard dello stato di servizio di Google Cloud. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblichiamo un rapporto sugli incidenti pubblici che include i dettagli dei fattori che hanno contribuito all'incidente e le misure che abbiamo intenzione di adottare per evitare che questi incidenti si ripetano.

In caso di incidenti con ambito più limitato, un report non pubblico potrebbe essere reso disponibile ai clienti.

Ciclo di vita di un incidente

Quando viene rilevato un deterioramento del prodotto, il team di assistenza clienti Cloud e il team di progettazione del prodotto collaborano per risolvere l'incidente e comunicarlo all'utente.

Diagramma del ciclo di vita

Rilevamento

Google Cloud utilizza il monitoraggio interno e della scatola nera per rilevare gli incidenti. Per ulteriori informazioni, consulta il Capitolo 6 del libro Site Reliability Engineering.

Se hai l'Assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza in Google Cloud Console. Altrimenti, puoi utilizzare questo modulo.

Risposta iniziale

Quando viene rilevato un incidente, il team dell'assistenza clienti ha la comunicazione con te. Le notifiche iniziali di un incidente sono spesso sparse, in genere menzionano solo il prodotto in questione. Questo perché diamo la priorità a notifiche veloci e dettagli. I dettagli possono essere forniti negli aggiornamenti successivi.

Per fornirti quante più informazioni possibili senza sovraccaricarti di problemi che non ti riguardano, vengono utilizzati canali di comunicazione diversi in base all'ambito e alla gravità di un problema:

Diagramma Comunicazioni

La dashboard di Google CSH è il primo posto per verificare quando rilevi un problema che ti riguarda. La dashboard mostra gli incidenti che interessano molti clienti, quindi se vedete un incidente elencato è probabilmente correlato al vostro problema. Per indicare la gravità, la dashboard contrassegna gli incidenti come interruzioni o interruzioni. I problemi più minori, ma comunque diffusi, vengono pubblicati come notifiche temporanee.

Quando un prodotto o servizio Google Cloud pertinente segnala un problema nella dashboard CSH di Google, potresti anche visualizzare un avviso di interruzione nella console. Se nella console viene visualizzato un avviso di interruzione, puoi fare clic sull'avviso per avere ulteriori informazioni sullo stato del problema.

Alcuni prodotti Google Cloud hanno Google Gruppi a cui puoi abbonarti per ricevere annunci e notifiche sui nuovi incidenti nella dashboard CSH di Google.

I problemi noti visualizzati nel Google Cloud Support Center e nella pagina di assistenza della console sono la visualizzazione più completa dei problemi e includono i problemi che interessano meno persone di quelli mostrati nella dashboard. Se sospetti che un problema di GCP non sia presente nella dashboard, controlla qui.

Le richieste di assistenza sono appropriate per i problemi non idonei come incidenti o in cui è necessario un intervento umano. La pagina dei problemi noti ti consente di creare una richiesta da un incidente pubblicato, in modo da ricevere aggiornamenti regolari e parlare con il personale di assistenza.

Indaga

I team di ingegneri dei prodotti sono responsabili di indagare sulla causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, ma potrebbe essere eseguita da software engineer o da altre persone, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il Capitolo 12 del Site Reliability Engineering Book.

Mitigazione/correzione

Un problema è considerato risolto solo quando sono state apportate modifiche che Google ritiene che l'impatto terminerà a tempo indeterminato. Ad esempio, la correzione potrebbe eseguire il rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, l'assistenza clienti e il team di prodotto tentano di ridurre il problema. La mitigazione si verifica quando l'impatto o l'ambito di un problema può essere ridotto, ad esempio fornendo temporaneamente risorse aggiuntive a un servizio che presenta un sovraccarico.

Se non è stata trovata alcuna mitigazione, quando possibile il team dell'assistenza clienti trova e comunica soluzioni. Le soluzioni alternative sono passaggi che puoi adottare per risolvere la necessità sottostante nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.

In sospeso

Mentre un incidente è in corso, il team dell'assistenza clienti fornisce aggiornamenti regolari. In genere gli aggiornamenti forniscono:

  • Ulteriori informazioni sull'incidente, come messaggi di errore, zone o aree geografiche interessate, le funzionalità interessate o le percentuali di impatto.

  • Progressi verso la mitigazione, incluse eventuali soluzioni alternative.

  • Tempistiche per la comunicazione, personalizzate in base all'incidente.

  • Modifiche allo stato, ad esempio la risoluzione di un incidente.

Analisi della causa principale

Per impostazione predefinita, tutti gli incidenti sono associati a un postmortem per poter comprendere appieno l'incidente e identificare i miglioramenti che Google può sottoporre ad affidabilità. Questi miglioramenti vengono quindi monitorati e implementati. Per ulteriori informazioni sulle post-poste di Google, consulta il Capitolo 15 del Site Reliability Engineering Book.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce rapporti sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Per quanto riguarda i postmortem, prestiamo particolare attenzione ai passaggi che eseguiamo per imparare dal problema e migliorare l'affidabilità. L'obiettivo di Google per la scrittura e il rilascio di post-produzione è di essere trasparenti e dimostrare il nostro impegno alla creazione di servizi stabili per i nostri clienti.

Domande frequenti

Che tipo di informazioni sullo stato posso trovare nella dashboard di CSH di Google?

La dashboard CSH di Google fornisce informazioni sullo stato dei servizi che fanno parte di Google Cloud. Lo stato può includere interruzioni del servizio, interruzioni o messaggi informativi in merito a un problema temporaneo.

Dove posso trovare informazioni sulle interruzioni del servizio precedenti?

La dashboard CSH di Google conserva un registro delle interruzioni del servizio per i servizi Google Cloud per un periodo massimo di cinque anni. La scheda Panoramica della dashboard mostra lo stato corrente dei servizi in base alle impostazioni internazionali. Per visualizzare informazioni sulle interruzioni di servizio e sulle interruzioni di servizio nell'ultimo anno, fai clic su Visualizza cronologia nella dashboard. Per visualizzare la cronologia delle interruzioni di un servizio negli ultimi cinque anni, fai clic su Visualizza altri dati per quel servizio.

Come faccio a visualizzare le informazioni sullo stato a livello di area geografica per i servizi Google Cloud?

La dashboard CSH di Google mostra lo stato di tutti i servizi Google Cloud organizzati per area geografica e impostazioni internazionali globali. Per visualizzare lo stato di un servizio per più aree geografiche, fai clic sulla scheda specifica per area geografica.

Posso creare integrazioni per consumare i dati visualizzati sulla dashboard di CSH di Google in modo programmatico?

Sì, puoi utilizzare i dati visualizzati sulla dashboard CSH di Google nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file della cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file della cronologia JSON forniscono informazioni sullo stato dell'incidente, che possono essere consumate tramite le integrazioni.

Cosa succede se ho integrazioni predefinite basate sulla dashboard dello stato di Google Cloud prima dell'introduzione dei report di stato a livello di area geografica e della modifica del nome in Google Cloud Service Health Dashboard?

Sia nel feed RSS sia nel file JSON, le informazioni sullo stato a livello di area geografica sono aggiuntive rispetto a quelle già pubblicate prima dell'introduzione dei report di stato a livello di area geografica e nella modifica del nome della dashboard di stato di Google Cloud. Pertanto, prevediamo che le tue integrazioni esistenti continueranno a funzionare. Tuttavia, se vuoi utilizzare le informazioni sullo stato a livello di area geografica tramite le integrazioni, devi modificarle.

Ecco una descrizione dettagliata di come le informazioni regionali vengono presentate sia nel feed RSS sia nel file JSON:

  • Feed RSS

    Le informazioni sullo stato a livello di area geografica sono una nuova aggiunta alle informazioni del feed fornite prima dell'introduzione dello stato a livello di area geografica. Le località segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di area geografica, Google Cloud pubblicava uno stream di incidenti in cui ogni incidente conteneva un elenco di prodotti interessati, oltre a un elenco di aggiornamenti di stato, se presenti. Questi aggiornamenti di stato contenevano un campo stringa non strutturato che conteneva o non conteneva le informazioni sulla località.

    Ora Google Cloud pubblica un flusso di incidenti come in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene i seguenti nuovi campi:

    • updates.affected_locations: contiene un elenco strutturato di sedi interessate al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento e il record most_recent_update contengono questo campo.
    • currently_affected_locations: contiene le informazioni più recenti sulle località interessate attivamente dall'incidente. A differenza di updates.affected_locations, questo elenco diventa vuoto dopo che l'incidente è stato risolto (ovvero, quando end è impostato su un valore non vuoto).
    • previously_affected_locations: contiene un elenco delle località che sono state interessate in precedenza durante un incidente, ma che al momento non sono presenti. Man mano che l'incidente inizia, alcune località potrebbero risolvere i problemi. Queste località continueranno a esistere in previously_affected_locations field. Una volta risolto l'incidente (ovvero quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate durante questo incidente.

Se si verifica un problema ma non viene indicato nella dashboard?

Il problema potrebbe essere isolato dai progetti o dalle istanze oppure potrebbe interessare un numero limitato di clienti. Puoi contattare l'Assistenza clienti in merito a eventuali problemi non elencati nella dashboard.

Se utilizzi la console, puoi fare clic sullo strumento Invia feedback nell'angolo in alto a destra per segnalare i problemi.

Chi aggiorna la dashboard?

Il team di assistenza clienti globale monitora lo stato dei servizi utilizzando diversi tipi di indicatori e aggiorna la dashboard in caso di problemi diffusi. Se necessario, pubblicheranno un rapporto dettagliato sull'analisi dell'incidente una volta risolto l'incidente.

Qual è la differenza tra un incidente e un'interruzione?

Sebbene questi termini siano spesso utilizzati come sinonimi, la dashboard CSH di Google e le nostre comunicazioni esterne utilizzano incidenti per fare riferimento a qualsiasi periodo di peggioramento del servizio e interruzione per fare riferimento solo ai casi più seri, in cui un prodotto non funziona in larga misura.