Informazioni sugli eventi host

Puoi scegliere la modalità di risposta delle istanze delle tue macchine virtuali (VM) durante o dopo un evento host impostando il criterio di manutenzione dell'host durante la creazione delle VM. Un evento host può includere la normale manutenzione dell'infrastruttura Compute Engine o un errore dell'host su una VM. Per impostazione predefinita, le VM sono impostate sulla migrazione live durante gli eventi del sistema host, ma puoi impostarle in modo che vengano terminate e, facoltativamente, riavviate. Le VM Z3 sono un'eccezione alla migrazione live, in quanto si riavviano per impostazione predefinita.

I seguenti eventi host comportano la migrazione live o la terminazione della VM a seconda del criterio di manutenzione dell'host che hai impostato:

Eventi di manutenzione

Un evento di manutenzione si verifica quando Compute Engine arresta una VM per eseguire un aggiornamento hardware o software. Se abiliti il criterio di manutenzione dell'host per la migrazione live, Compute Engine sposterà la VM su un nuovo host senza causare interruzioni all'applicazione.

Il comportamento della VM durante un evento di manutenzione può variare in base alla tenancy della VM. La tabella seguente mostra alcune differenze tra il comportamento delle VM multi-tenant e single-tenant durante gli eventi di manutenzione.

Tenancy host Frequenza approssimativa* Migrazione live al nuovo host Selezione dell'organizzatore
Multi-tenant Ogni 2 settimane Compute Engine
Single-tenant Ogni 4-6 settimane Dipende dal criterio di manutenzione dell'host Dipende dal criterio di manutenzione dell'host
*Queste frequenze sono approssimazioni e a volte Compute Engine potrebbe eseguire la manutenzione con maggiore frequenza.

Compute Engine applica in background alcuni upgrade di hypervisor e reti leggeri, senza interruzioni.

Criterio di manutenzione dell'host

Il criterio di manutenzione dell'host di una VM determina il suo comportamento durante i seguenti eventi:

  • Quando si verifica un evento di manutenzione in cui Google deve spostare una VM su un'altra macchina host
  • Quando si verifica un errore dell'host per cui Google deve terminare o riavviare una VM

Puoi configurare le VM in modo che continuino a essere eseguite durante la manutenzione dell'host, mentre Compute Engine ne esegue la migrazione live su un altro host oppure puoi scegliere di arrestare le VM. Puoi aggiornare il criterio di manutenzione dell'host di una VM in qualsiasi momento per controllare il comportamento delle VM.

Puoi modificare il criterio di manutenzione dell'host di una VM configurando le seguenti impostazioni:

  • Comportamento di manutenzione: indica se la VM è in fase di migrazione in tempo reale o viene arrestata quando si verifica un evento di manutenzione.
  • Comportamento al riavvio:indica se Compute Engine riavvia o termina la VM in caso di arresto anomalo o errore dell'host.
  • Tempo di rilevamento degli errori dell'host: il tempo massimo di tempo che Compute Engine attende per riavviare o terminare una VM dopo aver rilevato che la VM non risponde.
  • Tempo di recupero degli SSD locali:il tempo massimo che Compute Engine impiega per recuperare i dati sui dischi SSD locali dopo aver rilevato un errore dell'host. I dati dell'SSD locale vengono persi se il tempo specificato scade senza che il ripristino sia andato a buon fine.

Pianificazione della manutenzione

Google Cloud offre funzionalità che consentono un controllo più rigido sulla manutenzione. Utilizzando alcune famiglie di VM, puoi specificare le preferenze di manutenzione per ricevere notifiche di più giorni tramite Cloud Logging. Al ricevimento di una notifica, puoi attivare la manutenzione in qualsiasi momento di tua scelta fino all'evento pianificato.

Puoi utilizzare queste funzionalità in combinazione con il criterio di manutenzione dell'host per personalizzare una pianificazione adatta al tuo carico di lavoro.

Migrazione live

Per impostazione predefinita, tutte le VM, ad eccezione delle VM Z3, sono impostate sulla migrazione live, in cui Compute Engine esegue automaticamente la migrazione della VM da un evento di manutenzione dell'infrastruttura e la VM rimane in esecuzione durante la migrazione. La tua VM potrebbe registrare un breve periodo di riduzione delle prestazioni, ma in generale la maggior parte delle VM non dovrebbe presentare prestazioni notevolmente diverse. È ideale per le VM che richiedono un tempo di attività costante e sono in grado di tollerare un breve periodo di riduzione delle prestazioni.

Quando Compute Engine esegue la migrazione della VM, segnala un evento di sistema che viene pubblicato nell'elenco delle operazioni per zona. Puoi rivedere questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di migrazione live hanno il seguente tipo di operazione:

    compute.instances.migrateOnHostMaintenance

Interrompi e (facoltativamente) riavvia

Se non vuoi che la VM esegua la migrazione live, puoi scegliere di arrestarla e facoltativamente riavviarla. Per le VM impostate per l'arresto e il riavvio facoltativo, Compute Engine invia un segnale di spegnimento soft per arrestare la VM. Quindi, attende 60 secondi per un arresto corretto della VM, termina la VM e la riavvia dopo l'evento di manutenzione. Se la VM non viene arrestata in modo pulito entro 60 secondi, viene terminata.

Questa opzione è ideale se le tue VM richiedono prestazioni massime e costanti e se l'applicazione complessiva è progettata per gestire gli errori o i riavvii delle VM.

Quando Compute Engine arresta e riavvia le VM, segnala un evento di sistema che viene pubblicato nell'elenco delle operazioni per zona. Puoi rivedere questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi interrotti hanno il seguente tipo di operazione:

compute.instances.terminateOnHostMaintenance

Quando si riavvia, la VM utilizza lo stesso disco di avvio permanente e ricollega eventuali dischi permanenti secondari che hai configurato. I dati su questi dischi rimangono durante la migrazione e il riavvio delle VM.

I dati degli SSD locali non vengono mantenuti quando una VM viene arrestata a causa di un evento di manutenzione. Al riavvio, la VM crea un nuovo SSD locale che devi formattare e montare.

I dati degli SSD locali vengono mantenuti sulle VM Z3 ottimizzate per lo spazio di archiviazione. In caso di evento di manutenzione, la VM Z3 si riavvia in funzione anziché eseguire la migrazione a un nuovo host. Al termine della manutenzione di routine, la VM viene riavviata. Google Cloud fa il possibile per garantire che i dati dei tuoi SSD locali restino intatti. Tuttavia, in alcuni casi i dati non possono essere recuperati, ad esempio un timeout.

Riavvio automatico

Se la tua VM è impostata per arrestarsi in caso di evento di manutenzione o se la VM si arresta in modo anomalo a causa di un problema hardware sottostante, puoi impostare Compute Engine in modo che riavvii automaticamente la VM impostando il campo automaticRestart su true. Questa impostazione non si applica se la VM viene offline tramite un'azione dell'utente, ad esempio la chiamata a sudo shutdown, o durante un'interruzione di una zona.

Quando Compute Engine riavvia automaticamente la VM, segnala un evento di sistema che viene pubblicato nell'elenco delle operazioni per zona. Puoi rivedere questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di riavvio automatico hanno il seguente tipo di operazione:

compute.instances.automaticRestart

Errori relativi all'host

Un errore dell'host (compute.instances.hostError) indica che si è verificato un problema hardware o software sulla macchina fisica che ospita la tua VM che ha causato l'arresto anomalo della VM. Un errore dell'host che comporta un guasto totale dell'hardware o altri problemi dell'hardware potrebbe impedire la migrazione live della VM. Se la VM è impostata per il riavvio automatico (impostazione predefinita), Google riavvia la VM, in genere entro tre minuti dal rilevamento dell'errore. A seconda del problema, il riavvio potrebbe richiedere fino a 5,5 minuti.

VM con dischi SSD locali

Se si verifica un errore dell'host su una VM a cui sono collegati uno o più dischi SSD locali, Compute Engine fa il possibile per riconnettersi alla VM e conservare i dati degli SSD locali. Mentre Compute Engine sta recuperando la VM e il disco SSD locale, il sistema host e il disco sottostante non rispondono.

Puoi specificare il tempo che Compute Engine impiega per tentare di recuperare i dati degli SSD locali impostando il timeout del ripristino degli SSD locali.

Per ulteriori informazioni sul comportamento dei dischi SSD locali quando si verifica un errore dell'host, consulta Persistenza dei dati degli SSD locali.

VM che non rispondono

A volte, una VM potrebbe non rispondere prima che venga rilevato un errore dell'host. Puoi ridurre il tempo di attesa di Compute Engine per riavviare o terminare la VM impostando il timeout per il recupero degli errori dell'host (anteprima). Per maggiori informazioni, consulta Impostare i criteri di disponibilità.

I guasti fisici e del software possono verificarsi occasionalmente, ma sono rari casi. Per proteggere le applicazioni e i servizi da questi eventi di sistema potenzialmente invasivi, esamina le seguenti risorse:

Google offre inoltre servizi gestiti come App Engine e l'ambiente flessibile di App Engine.

Timeout del ripristino degli SSD locali

Quando si verifica un errore dell'host, Compute Engine tenta di ripristinare tutti i dischi SSD locali collegati alla VM. Con il timeout per il recupero degli SSD locali, puoi controllare il tempo che Compute Engine impiega per tentare di recuperare i dati. Per impostazione predefinita, Compute Engine impiega un'ora per recuperare i dati, ma i valori validi sono compresi tra 0 e 168, con incrementi di 1 ora. L'eccezione è Z3, che ha un tempo di ripristino predefinito fino a 6 ore.

Se il timeout scade e i dati continuano a non essere recuperati, Compute Engine riavvia la VM senza il disco SSD locale. Compute Engine collega un nuovo disco SSD locale vuoto alla VM riavviata.

Se il timeout è di 1 ora o più, la VM è in stato REPAIRING mentre Compute Engine recupera tutti i dischi SSD locali collegati. La VM e i dischi SSD locali non rispondono durante il ripristino.

Se il timeout è 0, Compute Engine non tenterà di recuperare i dischi SSD locali e i dati non saranno recuperabili. Puoi impostare il timeout del recupero su 0 se il ripristino del carico di lavoro è più importante del recupero dei dati degli SSD locali.

Arresta il ripristino del disco SSD locale

Puoi interrompere il processo di ripristino prima che scada il timeout del recupero degli SSD locali. Per farlo, utilizza il comando gcloud compute instances stop con il flag --discard-local-ssd=True.

Questa operazione interromperà il processo di ripristino, arresta la VM e annulla i dati degli SSD locali. Puoi riavviare la VM in un secondo momento. Per ulteriori informazioni, consulta Arrestare una VM con SSD locale.

Per impostare il timeout del recupero degli SSD locali, vedi Configurare i criteri di manutenzione dell'host della VM.

Passaggi successivi