Monitorare gli incidenti di Service Health

.

Per rimanere al corrente sull'integrità dei Google Cloud prodotti, controlla quanto segue:

  1. Integrità dei servizi personalizzati: fornisce una visualizzazione personalizzata dei Google Cloud prodotti e delle regioni utilizzati dai tuoi progetti o dalla tua organizzazione. Controlla Personalized Service Health per verificare la presenza di comunicazioni relative a incidentiGoogle Cloud attivi e passati che potrebbero influire sui tuoi progetti e sulle tue risorse.

    Puoi accedere a Personalized Service Health tramite:

    Utilizza Stato del servizio personalizzato come prima tappa in caso di interruzione del servizio per prodotti specifici, poiché Stato del servizio personalizzato avrà sempre a disposizione le informazioni più aggiornate per i clientiGoogle Cloud . Scopri di più sull'integrità dei servizi personalizzati e su come integrarla nel flusso di lavoro di gestione degli incidenti.

  2. Google Cloud Integrità dei servizi: fornisce quanto segue:

    • Una visualizzazione a livello di piattaforma dell'integrità di tutti i Google Cloud prodotti in tutte le Google Cloud regioni.
    • Google Cloud incidenti con un impatto diffuso.

    Google Cloud La funzionalità Integrità del servizio è disponibile per tutti tramite quanto segue:

Puoi anche controllare se sono presenti interruzioni attive nella pagina di assistenza della console Google Cloud. I problemi noti visualizzati nella pagina di assistenza della console Google Cloud includono anche incidenti minori e con ambito limitato. La pagina dei problemi noti ti consente di creare una richiesta da un incidente pubblicato in modo da ricevere aggiornamenti regolari e poter parlare con il personale di assistenza. Le richieste di assistenza sono appropriate per i problemi che non si qualificano come incidenti o per i quali è necessario un contatto personale. Se disponi dell'assistenza Premium, Avanzata o Standard, puoi segnalare un incidente creando una richiesta di assistenza nella console Google Cloud. In caso contrario, puoi utilizzare questo modulo.

Questo documento è incentrato sull' Google Cloud integrità del servizio.

Che cos'è Google Cloud Service Health

Google Cloud La pagina Stato del servizio fornisce informazioni sugli incidenti diffusi in corso che soddisfano determinati criteri e sullo stato dei prodotti Google Cloudorganizzati per regione e locale globale. Queste informazioni possono includere interruzioni del servizio, interruzioni del servizio o messaggi informativi su un problema temporaneo.

Google Cloud Service Health è progettato per essere disponibile nel raro caso in cui Personalized Service Health stesso non sia disponibile o sia interessato da un'interruzione oppure se il prodotto interessato non è ancora stato sottoposto a onboarding in Personalized Service Health.

Quando viene visualizzato un incidente in Google Cloud Service Health

Per la maggior parte degli Google Cloud incidenti, i clienti interessati ricevono comunicazioni relative agli incidenti direttamente tramite Personalized Service Health nella console Google Cloud. Se soddisfano le condizioni di avviso, questi incidenti attivano anche gli avvisi di Service Health che hai configurato.

Gli incidenti che soddisfano uno dei seguenti criteri vengono visualizzati in Google Cloud Stato servizio:

Incidente grave

Google Cloud definisce un incidente come grave se soddisfa tutte le seguenti condizioni:

  • Ambito elevato: l'incidente ha un impatto globale o sta interessando una percentuale significativa dei progetti dei clienti in una o più regioni.
  • Gravità elevata: uno o più prodotti non sono disponibili o sono gravemente degradati.

Nei rari casi in cui si verifichi un incidente grave, agiamo con urgenza per risolvere eventuali problemi.

Durante un incidente grave, lo stato del problema viene comunicato tramite Service Health di Google Cloud. Un incidente grave è contrassegnato come Interruzione del servizio nelle dashboard dello stato. Una volta risolto il problema, pubblichiamo un report pubblico sugli incidenti che include i dettagli dei fattori che hanno contribuito all'incidente e i passaggi che prevediamo di adottare per evitare che si ripetano.

In caso di incidenti di minore portata, potrebbe essere reso disponibile per i clienti un report non pubblico.

Ciclo di vita di un incidente

Quando viene rilevato un degrado del prodotto, il Google Cloud team di assistenza e il team di ingegneria del prodotto collaborano per risolvere l'incidente e fornirti aggiornamenti.

Il seguente diagramma mostra le responsabilità dei team di assistenza e di progettazione del prodotto:

Diagramma del ciclo di vita

Puoi scoprire di più su ciascuna di queste responsabilità nelle seguenti sezioni.

Rilevamento

Google Cloud utilizza il monitoraggio interno e black box per rilevare gli incidenti. Per ulteriori informazioni, consulta il capitolo 6 del libro Site Reliability Engineering.

Risposta iniziale

Quando viene rilevato un incidente, il Google Cloud team dell'assistenza clienti gestisce le comunicazioni con il cliente. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione. Questo perché diamo la priorità alle notifiche rapide rispetto ai dettagli. I dettagli possono essere forniti negli aggiornamenti successivi.

Per fornirti quante più informazioni possibili senza sovraccaricarti di problemi che non ti riguardano, vengono utilizzati diversi canali di comunicazione a seconda dell'ambito e della gravità del problema:

Diagramma di comunicazione

Indaga

I team di ingegneri di prodotto sono responsabili di analizzare la causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita dagli SRE, ma potrebbe essere eseguita da tecnici software o altri, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il capitolo 12 del libro Site Reliability Engineering.

Attenuazione e correzione

Un problema è considerato risolto solo quando sono state apportate modifiche che Google ritiene con certezza che metteranno fine all'impatto in modo definitivo. Ad esempio, la correzione potrebbe consistere nel rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, l'assistenza clienti e il team di prodotto tentano di mitigare il problema. Si parla di mitigazione quando è possibile ridurre l'impatto o l'ambito di un problema, ad esempio fornendo temporaneamente risorse aggiuntive a un prodotto in sovraccarico.

Se non viene trovata alcuna soluzione, il team dell'Assistenza clienti individua e comunica soluzioni alternative, se possibile. Le soluzioni alternative sono passaggi che puoi intraprendere per soddisfare la necessità di base nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.

Follow-up

Mentre un incidente è ancora in corso, il team di assistenza clienti fornisce aggiornamenti regolari. Gli aggiornamenti in genere forniscono:

  • Ulteriori informazioni sull'incidente, ad esempio messaggi di errore, zone o regioni interessate, funzionalità interessate o percentuali di impatto.

  • Aggiornamento relativo alla mitigazione, incluse eventuali soluzioni alternative.

  • Tempistiche per la comunicazione, personalizzate in base all'incidente.

  • Modifiche dello stato, ad esempio quando un incidente viene risolto.

Post-mortem

Per tutti gli incidenti viene eseguita un'analisi post mortem interna per comprenderli appieno e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono quindi monitorati e implementati. Per ulteriori informazioni sui post mortem di Google, consulta il capitolo 15 del libro Site Reliability Engineering.

Report sull'incidente

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come per i post mortem, prestiamo particolare attenzione ai passaggi che intraprendiamo per imparare dal problema e migliorare l'affidabilità. Lo scopo di Google nel redigere e pubblicare i post mortem è essere trasparente e dimostrare il nostro impegno a creare prodotti stabili per i nostri clienti.

Modello di dati sugli incidenti

Un incidente interessa uno o più prodotti in una o più località. Gli incidenti hanno un'ora di inizio e un'ora di fine, nonché una gravità complessiva. Un incidente ha aggiornamenti che descrivono come cambia nel tempo, incluso lo stato e le località interessate. Le informazioni sull'incidente vengono rese disponibili tramite uno schema JSON.

Lo schema JSON ha campi contrassegnati come Stabile e Instabile. In generale, i campi ID sono considerati stabili, mentre campi come i nomi visualizzati sono considerati instabili e possono essere modificati senza avviso. Utilizza i campi Stabili solo per l'integrazione con un sistema esterno o l'automazione degli edifici. Consulta Posso creare integrazioni per utilizzare i dati visualizzati inGoogle Cloud Service Health programmatically?.

Domande frequenti

Dove posso trovare informazioni su interruzioni e interruzioni del servizio passate?

Google Cloud La pagina Stato del servizio tiene traccia delle interruzioni e delle interruzioni dei prodotti per un massimo di cinque anni.Google Cloud La scheda Panoramica mostra lo stato attuale degli annunci per lingua. Per visualizzare informazioni su interruzioni e interruzioni del servizio nell'ultimo anno, fai clic su Visualizza cronologia. Per visualizzare la cronologia delle interruzioni di un prodotto negli ultimi cinque anni, fai clic su Visualizza altri accanto al prodotto in questione.

Come faccio a visualizzare le informazioni sullo stato a livello di regione per i Google Cloud prodotti?

Google Cloud La scheda Integrità del servizio mostra lo stato di tutti Google Cloud i prodotti organizzati per regione e impostazioni internazionali. Per visualizzare lo stato di una località con più regioni, seleziona la scheda specifica della regione.

Posso creare integrazioni per utilizzare i dati visualizzati in Google Google Cloud Service Health programmatically?

Sì, puoi utilizzare i dati visualizzati in Google Cloud Service Health nei seguenti modi:

  • Tramite un feed RSS
  • Tramite un file Cronologia JSON

    Puoi scaricare lo schema per il file JSON qui.

Il feed RSS e il file JSON della cronologia forniscono informazioni sullo stato degli incidenti che possono essere utilizzate tramite le integrazioni.

Utilizza i campi contrassegnati come Stabile nel file JSON History anziché quelli contrassegnati come Instabile. Esempio: se stai cercando di identificare in modo programmatico gli incidenti che interessano un determinato insieme di prodotti, utilizza gli ID prodotto (affected_products>id), non i relativi nomi visualizzati.

ID prodotto e nomi dei prodotti

In passato, Google Cloud Service Health non forniva un meccanismo per individuare l'ID di un determinato prodotto. Dall'inizio del 2023, Google Cloud Service Health ha reso disponibile un catalogo dei prodotti che fornisce questa mappatura per tutti i prodotti. Un ID prodotto fornisce un campo stabile su cui basarsi e consente al contempo di modificare il nome visualizzato di un prodotto. Preferisci fare riferimento all'ID prodotto quando identifichi in modo programmatico gli incidenti che interessano un set di prodotti.

Che cosa succede se ho integrazioni predefinite basate su Google Cloud Stato del servizio prima dell'introduzione dei report sullo stato a livello di regione e del cambio di nome in Google Cloud Stato del servizio? Google Cloud

Sia nel feed RSS sia nel file JSON, le informazioni sullo stato regionale si sommano alle informazioni già pubblicate prima dell'introduzione dei report sullo stato a livello di regione e della modifica del nome diGoogle Cloud Integrità del servizio. Pertanto, prevediamo che le tue integrazioni esistenti continueranno a funzionare. Tuttavia, se vuoi utilizzare le informazioni sullo stato regionale tramite le tue integrazioni, devi modificarle.

Ecco una descrizione dettagliata di come le informazioni regionali vengono presentate sia nel feed RSS sia nel file JSON:

  • Feed RSS

    Le informazioni sullo stato regionale sono una nuova aggiunta alle informazioni del feed fornite prima dell'introduzione dello stato a livello di regione. Tutte le località segnalate come interessate vengono aggiunte al messaggio RSS.

  • File JSON

    Prima dell'aggiornamento dello stato a livello di regione, Google Cloud ha pubblicato uno stream di incidenti in cui ogni incidente conteneva un elenco dei prodotti interessati e un elenco di aggiornamenti dello stato per ciascuno, se presenti. Questi aggiornamenti dello stato contenevano un campo di stringhe non strutturate che conteneva o meno le informazioni sulla posizione.

    Ora Google Cloud pubblica uno stream di incidenti,come faceva in precedenza. Tuttavia, per ogni incidente, ogni aggiornamento dello stato contiene i seguenti nuovi campi:

    • updates.affected_locations: contiene un elenco strutturato delle località interessate al momento della pubblicazione dell'aggiornamento. Ogni record di aggiornamento e il most_recent_update record contengono questo campo.
    • currently_affected_locations: contiene le informazioni più recenti sulle località attivamente interessate dall'incidente. A differenza di updates.affected_locations, questo elenco diventa vuoto dopo la risoluzione dell'incidente (ovvero quando end è impostato su un valore diverso da vuoto).
    • previously_affected_locations: contiene un elenco di località che sono state precedentemente interessate da un incidente, ma non al momento. Man mano che l'incidente si evolve, in alcune località potrebbe essere stata trovata una soluzione all'interruzione del servizio. Queste località continueranno a esistere in previously_affected_locations field. Una volta risolto l'incidente (ovvero quando end è impostato su un valore non vuoto), questo campo contiene un elenco di tutte le località interessate dall'incidente.

Cosa devo fare se sto riscontrando un problema che però non è elencato in Google Cloud Stato del servizio?

Google Cloud La funzionalità Integrità del servizio fornisce informazioni sullo stato attuale e storico di qualsiasi incidente grave che interessa i prodotti e i servizi. Google Cloud Se riscontri un problema non elencato inGoogle Cloud Integrità del servizio, il problema potrebbe essere limitato ai tuoi progetti o alle tue istanze oppure potrebbe interessare un numero limitato di clienti. Gli incidenti con un ambito meno ampio potrebbero essere elencati nel portale di assistenza clienti. Puoi contattare l'assistenza clienti per eventuali problemi che non sono elencati in Google Cloud Stato del servizio.

Se utilizzi già Personalized Service Health, controlla se il problema è elencato per determinare se il tuo progetto o la tua istanza è interessato.

Se utilizzi la console Google Cloud, puoi fare clic sullo strumento Invia feedback nell'angolo in alto a destra per segnalare i problemi.

Chi aggiorna Google Cloud l'integrità dei servizi?

Il team di assistenza clienti globale monitora lo stato dei prodotti utilizzando molti tipi diversi di indicatori e aggiorna Google Cloud la salute del servizio in caso di un problema diffuso. Se necessario, pubblicheranno un report dettagliato sull'analisi dell'incidente dopo la risoluzione dell'incidente.