Informazioni sugli eventi dell'organizzatore

Puoi scegliere in che modo le tue istanze di macchine virtuali (VM) rispondono durante o dopo un evento host impostando il criterio di manutenzione dell'host durante la creazione della VM. Un evento host può includere la manutenzione regolare dell'infrastruttura Compute Engine o un errore host su una VM. Per impostazione predefinita, le VM sono impostate sulla migrazione live durante gli eventi del sistema host, ma puoi impostarle in modo che vengano terminate e, facoltativamente, riavviate. Le VM Z3 fanno eccezione alla migrazione live, poiché vengono riavviate in loco per impostazione predefinita.

I seguenti eventi host portano alla migrazione live o alla terminazione della VM, a seconda del criterio di manutenzione dell'host che hai impostato:

Eventi di manutenzione

Un evento di manutenzione si verifica quando Compute Engine interrompe una VM per eseguire un aggiornamento hardware o software. Se abiliti il criterio di manutenzione dell'host per la migrazione live, Compute Engine sposta la VM in un nuovo host e non si verificano interruzioni dell'applicazione.

Il comportamento delle VM durante un evento di manutenzione può variare a seconda della tenancy della VM. La tabella seguente mostra alcune differenze tra il comportamento delle VM multi-tenant e single-tenant durante gli eventi di manutenzione.

Tenancy host Frequenza approssimativa* Migrazione live a un nuovo host Selezione dell'organizzatore
Multi-tenant Ogni 2 settimane Compute Engine
Single-tenant Ogni 4-6 settimane Dipende dal criterio di manutenzione dell'host Dipende dal criterio di manutenzione dell'host
*Queste frequenze sono approssimative, di tanto in tanto Compute Engine potrebbe eseguire la manutenzione con maggiore frequenza.

Compute Engine applica anche alcuni hypervisor leggeri e upgrade di rete in background senza interruzioni.

Criterio di manutenzione dell'host

Il criterio di manutenzione dell'host di una VM determina il suo comportamento durante i seguenti eventi:

  • In caso di evento di manutenzione in cui Google deve spostare una VM su un'altra macchina host
  • In caso di errore dell'host per cui Google deve terminare o riavviare una VM

Puoi configurare le VM in modo che continuino a essere eseguite durante la manutenzione dell'host, mentre Compute Engine live ne esegue la migrazione a un altro host oppure puoi scegliere di arrestare le VM. Puoi aggiornare i criteri di manutenzione dell'host di una VM in qualsiasi momento per controllare il comportamento delle VM.

Puoi modificare il criterio di manutenzione dell'host di una VM configurando le seguenti impostazioni:

  • Comportamento di manutenzione:indica se la VM viene migrata o arrestata in tempo reale in caso di evento di manutenzione.
  • Comportamento di riavvio:indica se Compute Engine riavvia o termina la VM in caso di arresto anomalo o di errore dell'host.
  • Tempo di rilevamento errori dell'host: il tempo massimo di attesa di Compute Engine per riavviare o terminare una VM dopo aver rilevato che la VM non risponde.
  • Tempo di recupero degli SSD locali: il tempo massimo impiegato da Compute Engine per recuperare i dati sui dischi SSD locali dopo aver rilevato un errore dell'host. I dati SSD locali andranno persi se trascorre il tempo specificato senza che il ripristino vada a buon fine.

Pianificazione della manutenzione

Google Cloud offre funzionalità che consentono un controllo maggiore sulla manutenzione. Utilizzando determinate famiglie di VM, puoi specificare le preferenze di manutenzione per ricevere notifiche di più giorni tramite Cloud Logging. Quando ricevi una notifica, puoi attivare la manutenzione in qualsiasi momento fino all'evento pianificato.

Puoi utilizzare queste funzionalità in combinazione con il criterio di manutenzione dell'host per personalizzare una pianificazione adatta al tuo carico di lavoro.

Migrazione live

Per impostazione predefinita, tutte le VM tranne le VM Z3 sono impostate sulla migrazione live, dove Compute Engine esegue automaticamente la migrazione della VM da un evento di manutenzione dell'infrastruttura e la VM rimane in esecuzione durante la migrazione. Le prestazioni della VM potrebbero ridursi per un breve periodo, ma in generale la maggior parte delle VM non dovrebbe avere prestazioni molto diverse. È ideale per le VM che richiedono un tempo di attività costante e possono tollerare un breve periodo di riduzione delle prestazioni.

Quando Compute Engine esegue la migrazione di una VM, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di migrazione live prevedono il seguente tipo di operazione:

    compute.instances.migrateOnHostMaintenance

Interrompi e riavvia (facoltativamente)

Se non vuoi che la VM venga sottoposta a migrazione live, puoi scegliere di arrestarla e, facoltativamente, riavviarla. Per le VM impostate per l'arresto e il riavvio, Compute Engine invia un segnale di spegnimento temporaneo per arrestare la VM. Quindi, attende 60 secondi affinché la VM si arresti in modo pulito, termina la VM e la riavvia fuori dall'evento di manutenzione. Se la VM non viene arrestata in modo pulito entro 60 secondi, viene arrestata.

Questa opzione è ideale se le VM richiedono prestazioni costanti e massime e se l'applicazione complessiva è progettata per gestire errori o riavvii delle VM.

Quando Compute Engine arresta e riavvia le VM, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi arrestati prevedono il seguente tipo di operazione:

compute.instances.terminateOnHostMaintenance

Quando la VM viene riavviata, utilizza lo stesso disco di avvio permanente e ricollega eventuali dischi permanenti secondari che hai configurato. I dati su questi dischi vengono mantenuti tramite la migrazione e il riavvio delle VM.

I dati degli SSD locali non vengono mantenuti quando una VM viene arrestata a causa di un evento di manutenzione. Quando la VM viene riavviata, crea un nuovo SSD locale che devi formattare e montare.

I dati degli SSD locali vengono mantenuti sulle VM Z3 ottimizzate per l'archiviazione (anteprima). Quando si verifica un evento di manutenzione, la VM Z3 si riavvia in loco anziché eseguire la migrazione a un nuovo host. Al termine della manutenzione ordinaria, la VM viene riavviata. Google Cloud si impegna al massimo per garantire che i dati degli SSD locali rimangano intatti. Tuttavia, in alcuni casi non è possibile recuperare i dati, ad esempio in caso di timeout.

Riavvio automatico

Se la tua VM è impostata per arrestarsi quando si verifica un evento di manutenzione o si arresta in modo anomalo a causa di un problema hardware sottostante, puoi impostare Compute Engine per il riavvio automatico della VM impostando il campo automaticRestart su true. Questa impostazione non si applica se la VM viene messa offline tramite un'azione dell'utente, ad esempio la chiamata a sudo shutdown, o durante un'interruzione di una zona.

Quando Compute Engine riavvia automaticamente la VM, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di riavvio automatico prevedono il seguente tipo di operazione:

compute.instances.automaticRestart

Errori relativi all'host

Un errore dell'host (compute.instances.hostError) indica che si è verificato un problema hardware o software sulla macchina fisica che ospita la VM e che ha causato l'arresto anomalo della VM. Un errore dell'host che comporta guasti hardware totali o altri problemi hardware potrebbe impedire la migrazione live della VM. Se la VM è impostata per il riavvio automatico (impostazione predefinita), Google riavvia la VM, in genere entro tre minuti dal rilevamento dell'errore. A seconda del problema, il riavvio potrebbe richiedere fino a 5,5 minuti.

VM con dischi SSD locali

Se si verifica un errore dell'host su una VM a cui sono collegati uno o più dischi SSD locali, Compute Engine fa il possibile per riconnettersi alla VM e conservare i dati dell'SSD locale. Mentre Compute Engine recupera la VM e il disco SSD locale, il sistema host e il disco sottostante non rispondono.

Puoi specificare la quantità di tempo che Compute Engine trascorre nel tentativo di recuperare i dati degli SSD locali impostando il timeout del ripristino degli SSD locali.

Per saperne di più sul comportamento dei dischi SSD locali quando si verifica un errore dell'host, consulta la pagina relativa alla persistenza dei dati SSD locali.

VM che non rispondono

A volte, una VM potrebbe non rispondere prima che venga rilevato un errore dell'host. Puoi ridurre il tempo di attesa di Compute Engine per il riavvio o la terminazione della VM impostando il timeout del ripristino degli errori dell'host (Anteprima). Per maggiori informazioni, consulta Impostare i criteri di disponibilità.

I guasti fisici e software possono verificarsi occasionalmente, ma si verificano raramente. Per proteggere le tue applicazioni e i tuoi servizi da questi eventi di sistema potenzialmente dirompenti, esamina le seguenti risorse:

Google offre inoltre servizi gestiti come App Engine e l'ambiente flessibile di App Engine.

Timeout del ripristino degli SSD locali

Quando si verifica un errore dell'host, Compute Engine tenta di recuperare i dischi SSD locali collegati alla VM. Puoi controllare il tempo che Compute Engine dedica a recuperare i dati con il timeout del ripristino degli SSD locali. Per impostazione predefinita, Compute Engine impiega un'ora per recuperare i dati, ma i valori validi sono compresi tra 0 e 168, con incrementi di 1 ora. L'eccezione è Z3, che ha un tempo di recupero predefinito di massimo 6 ore.

Se il timeout scade e i dati ancora non possono essere recuperati, Compute Engine riavvia la VM senza il disco SSD locale. Compute Engine collega un nuovo disco SSD locale vuoto alla VM riavviata.

Se il timeout è di 1 ora o più, la VM è in stato REPAIRING mentre Compute Engine recupera eventuali dischi SSD locali collegati. La VM e i dischi SSD locali non rispondono durante il ripristino.

Se il timeout è 0, Compute Engine non tenterà di recuperare i dischi SSD locali e i dati non saranno recuperabili. Puoi impostare il timeout del recupero su 0 se il ripristino del carico di lavoro è più importante del recupero dei dati degli SSD locali.

Arresta il ripristino del disco SSD locale

Puoi interrompere il processo di ripristino prima della scadenza del timeout del ripristino degli SSD locali. Per farlo, utilizza il comando gcloud compute instances stop con il flag --discard-local-ssd=True.

Questa operazione interromperà il processo di recupero, interromperà la VM e sarà scartati i dati dell'SSD locale. Puoi riavviare la VM in seguito. Per ulteriori informazioni, consulta Arrestare una VM con SSD locale.

Per impostare il timeout del ripristino degli SSD locali, consulta Impostare il criterio di manutenzione dell'host della VM.

Passaggi successivi