Incidenti e dashboard di Google Cloud Service Health

La dashboard di Google Cloud Service Health (CSH) fornisce informazioni sullo stato dei prodotti Google Cloud organizzati per regione e impostazioni internazionali globali.

Incidente grave

L'impatto di un incidente grave si estende a due o più dei seguenti scenari:

  • Più prodotti
  • Più aree geografiche
  • Più ore
  • Più clienti

Nel raro caso in cui si verifichi un incidente grave, agiamo con urgenza per risolvere eventuali problemi.

Durante un incidente grave, lo stato del problema viene comunicato tramite la Dashboard dello stato di Google Workspace e la Dashboard dell'integrità dei servizi Google Cloud. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblichiamo un rapporto sull'incidente pubblico che include i dettagli dei fattori che hanno contribuito all'incidente e le misure che intendiamo adottare per evitare che questi incidenti si ripetano.

Nel caso di incidenti con ambito minore, è possibile che ai clienti venga reso disponibile un report non pubblico.

Ciclo di vita di un incidente

Quando viene rilevato un degrado del prodotto, il team dell'assistenza clienti Google Cloud e il team tecnico del prodotto collaborano per risolvere l'incidente e fornirti gli aggiornamenti.

Il seguente diagramma mostra le responsabilità dei team di progettazione e assistenza del prodotto:

Diagramma del ciclo di vita

Per ulteriori informazioni su ciascuna di queste responsabilità, consulta le sezioni seguenti.

Rilevamento

Google Cloud utilizza il monitoraggio interno e black box per rilevare gli incidenti. Per ulteriori informazioni, consulta il Capitolo 6 del libro Site Reliability Engineering.

Se disponi di Assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza nella console Google Cloud. In caso contrario, puoi utilizzare questo modulo.

Risposta iniziale

Quando viene rilevato un incidente, il team dell'assistenza clienti guida le comunicazioni con te. La notifica iniziale di un incidente è spesso sparsa e spesso viene citato solo il prodotto in questione. perché diamo la priorità alle notifiche rapide. I dettagli possono essere forniti nei successivi aggiornamenti.

Per fornirti il maggior numero possibile di informazioni senza sovraccaricarti di problemi che non ti riguardano, vengono utilizzati canali di comunicazione diversi a seconda dell'ambito e della gravità di un problema:

Diagramma delle comunicazioni

La dashboard di Google CSH è la prima pagina da cui puoi verificare quando scopri che un problema ti interessa. La dashboard mostra gli incidenti che interessano molti clienti, quindi se viene elencato un incidente probabilmente è correlato al tuo problema. Per indicare la gravità, la dashboard contrassegna gli incidenti come interruzione o interruzione. Problemi di minore entità, ma ancora difficili, vengono pubblicati come avvisi temporanei.

Quando un prodotto Google Cloud pertinente segnala un problema nella dashboard, potresti anche visualizzare un avviso di interruzione nella console Google Cloud. Se nella console Google Cloud viene visualizzato un avviso di interruzione, puoi fare clic sull'avviso per saperne di più sullo stato del problema.

Alcuni prodotti Google Cloud hanno gruppi Google a cui puoi iscriverti per ricevere annunci e notifiche sui nuovi incidenti nella dashboard.

I problemi noti visualizzati in Google Cloud Support Center e nella pagina dell'assistenza della console Google Cloud sono la visualizzazione più completa dei problemi e includono i problemi che interessano un numero inferiore di persone rispetto a quanto mostrato nella dashboard. Se sospetti un problema con Google Cloud, ma non vedi nulla nella dashboard, controlla qui.

Le richieste di assistenza sono appropriate per problemi che non sono considerati incidenti o che richiedono un intervento individuale. La pagina dei problemi noti ti consente di creare una richiesta da un incidente pubblicato, in modo da ricevere aggiornamenti regolari e poter parlare con il personale di assistenza.

Indaga

I team di tecnici del prodotto sono responsabili dell'indagine della causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, ma può essere eseguita da ingegneri informatici o altri, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il Capitolo 12 del Site Reliability Engineering Book.

Mitigazione/Correzione

Un problema viene considerato risolto solo se sono state apportate modifiche che, secondo Google, con certezza avranno termine a tempo indeterminato. Ad esempio, la correzione potrebbe essere il rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, l'assistenza clienti e il team di prodotto tentano di mitigare il problema. Per mitigazione si intende quando l'impatto o l'ambito di un problema può essere ridotto, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto interessato dal sovraccarico.

Se non sono state trovate mitigazioni, quando possibile, il team dell'assistenza clienti trova e comunica le soluzioni. Le soluzioni sono passaggi che puoi intraprendere per risolvere l'esigenza di fondo nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API al fine di evitare un percorso del codice problematico.

Invia un follow-up

Mentre è in corso un incidente, il team dell'assistenza clienti fornisce aggiornamenti regolari. In genere gli aggiornamenti forniscono:

  • Maggiori informazioni sull'incidente, come i messaggi di errore, le zone o le regioni interessate, le funzionalità interessate o le percentuali dell'impatto.

  • Progressi verso la mitigazione, incluse eventuali soluzioni alternative.

  • Tempi della comunicazione, personalizzati in base all'incidente.

  • Cambiamenti di stato, ad esempio quando un incidente viene risolto.

Postmortem

Tutti gli incidenti hanno un post mortem interno per comprenderli appieno e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono quindi monitorati e implementati. Per ulteriori informazioni sui post mortem di Google, consulta il Capitolo 15 del Site Reliability Engineering Book.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, il rimedio e la futura prevenzione degli incidenti. Come per i post mortem, prestiamo particolare attenzione ai passaggi che intraprendiamo per imparare dal problema e migliorare l'affidabilità. L'obiettivo di Google per la scrittura e il rilascio dei post mortem è garantire la trasparenza e dimostrare il proprio impegno nello sviluppo di prodotti stabili per i clienti.

Domande frequenti

Che tipo di informazioni sullo stato posso trovare nella Dashboard di Google CSH?

La dashboard di Google CSH fornisce informazioni sullo stato dei prodotti che fanno parte di Google Cloud. Lo stato può includere interruzioni di prodotti o interruzioni del servizio o messaggi informativi su un problema temporaneo.

Dove posso trovare informazioni su interruzioni e interruzioni del prodotto in passato?

La dashboard CSH di Google tiene un registro delle interruzioni dei prodotti Google Cloud per un massimo di cinque anni. La scheda Panoramica della dashboard mostra lo stato corrente dei prodotti in base alle impostazioni internazionali. Per visualizzare informazioni su interruzioni e interruzioni dei prodotti nello scorso anno, fai clic su Visualizza cronologia nella dashboard. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Scopri di più per quel prodotto.

Come posso visualizzare le informazioni sullo stato a livello di regione per i prodotti Google Cloud?

La dashboard di Google CSH mostra lo stato di tutti i prodotti Google Cloud organizzati per regione e impostazioni internazionali globali. Per visualizzare lo stato di più regioni, fai clic sulla scheda specifica per la regione.

Posso creare integrazioni per utilizzare in modo programmatico i dati visualizzati nella dashboard CSH di Google?

Sì, puoi utilizzare i dati visualizzati nella dashboard di Google CSH nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file di cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file Cronologia JSON forniscono informazioni sullo stato degli incidenti che possono essere utilizzate tramite le integrazioni.

Che cosa succede se ho integrazioni predefinite basate sulla dashboard dello stato di Google Cloud prima dell'introduzione dei report sullo stato a livello di regione e della modifica del nome nella dashboard di Google Cloud Service Health?

Sia nel feed RSS sia nel file JSON, le informazioni sullo stato a livello di regione vengono aggiunte a quelle già pubblicate prima dell'introduzione della segnalazione dello stato a livello di regione e della modifica del nome della Dashboard dello stato di Google Cloud. Pertanto, prevediamo che le tue integrazioni esistenti continuino a funzionare. Tuttavia, se vuoi utilizzare le informazioni sullo stato a livello di regione tramite le tue integrazioni, devi modificarle.

Ecco una descrizione dettagliata di come vengono presentate le informazioni regionali nel feed RSS e nel file JSON:

  • Feed RSS

    Le informazioni sullo stato a livello di regione sono una nuova aggiunta alle informazioni dei feed fornite prima dell'introduzione dello stato regionalizzato. Tutte le posizioni segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di regione, Google Cloud pubblicava un flusso di incidenti in cui ogni incidente conteneva un elenco dei prodotti interessati e un elenco di aggiornamenti dello stato per ciascuno, se presente. Questi aggiornamenti dello stato contenevano un campo stringa non strutturato che conteneva o non conteneva le informazioni sulla località.

    Ora Google Cloud pubblica un flusso di incidenti come prima. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene i seguenti nuovi campi:

    • updates.affected_locations: contiene un elenco strutturato delle località interessate al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento e il record most_recent_update contengono questo campo.
    • currently_affected_locations: contiene le informazioni più recenti sulle località interessate attivamente dall'incidente. A differenza di updates.affected_locations, questo elenco diventa vuoto dopo la risoluzione dell'incidente, ovvero quando end è impostato su un valore non vuoto.
    • previously_affected_locations: contiene un elenco di località che sono state interessate in precedenza durante un incidente, ma che al momento non lo sono. Con l'avanzamento dell'incidente, alcune sedi potrebbero avere una risoluzione dell'interruzione. Queste località saranno ancora presenti in previously_affected_locations field. Una volta risolto l'incidente (ovvero, quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate durante l'incidente.

Che cosa succede se riscontro un problema che non è elencato nella dashboard?

Il problema potrebbe essere isolato ai tuoi progetti o alle tue istanze oppure potrebbe interessare un numero limitato di clienti. Puoi contattare l'assistenza clienti in caso di problemi che non sono elencati nella dashboard.

Se utilizzi la console Google Cloud, puoi fare clic sullo strumento Invia feedback nell'angolo in alto a destra per segnalare problemi.

Chi aggiorna la dashboard?

Il team globale dell'assistenza clienti monitora lo stato dei prodotti utilizzando molti tipi diversi di indicatori e aggiorna la dashboard in caso di un problema diffuso. Se necessario, pubblicano un report dettagliato sull'analisi degli incidenti dopo che l'incidente è stato risolto.

Qual è la differenza tra un incidente e un'interruzione?

Sebbene questi termini siano spesso utilizzati in modo intercambiabile, la dashboard di Google CSH e le nostre comunicazioni esterne utilizzano incidente per fare riferimento a qualsiasi periodo di servizio con prestazioni ridotte e interruzione per fare riferimento solo ai casi più gravi, in cui un prodotto non funziona in larga misura.