Simula un'interruzione di zona per un gruppo di istanze gestite a livello di regione

Per verificare se per il tuo gruppo di istanze gestite a livello di regione è stato eseguito un overprovisioning sufficiente e può sopravvivere a un'interruzione della zona, puoi usare l'esempio seguente per simulare un errore a livello di zona.

Prima di iniziare

  • Se vuoi utilizzare gli esempi di riga di comando di questa guida, installa Google Cloud CLI.
  • Se non l'hai ancora fatto, configura l'autenticazione. L'autenticazione è il processo mediante il quale viene verificata l'identità per l'accesso ai servizi e alle API Google Cloud. Per eseguire codice o esempi da un ambiente di sviluppo locale, puoi autenticarti in Compute Engine nel seguente modo.

    Seleziona la scheda relativa a come prevedi di utilizzare gli esempi in questa pagina:

    gcloud

    1. Installa Google Cloud CLI, quindi initialize eseguendo questo comando:

      gcloud init
    2. Imposta una regione e una zona predefinite.

    REST

    Per utilizzare gli esempi di API REST in questa pagina in un ambiente di sviluppo locale, devi utilizzare le credenziali che fornisci a gcloud CLI.

      Installa Google Cloud CLI, quindi initialize eseguendo questo comando:

      gcloud init

Utilizza uno script per simulare un'interruzione di una zona

Questo script arresta e avvia Apache come scenario predefinito. Se questo non è applicabile alla tua applicazione, sostituisci i comandi che arrestano e avviano Apache con il tuo scenario di errore e ripristino.

  1. Esegui il deployment di questo script ed eseguilo continuamente in ogni VM del gruppo. Puoi farlo aggiungendo lo script al modello di istanza o includendolo in un'immagine personalizzata e utilizzando l'immagine nel modello di istanza.

    #!/usr/bin/env bash
    
    # Copyright 2016 Google Inc. All Rights Reserved.
    #
    # Licensed under the Apache License, Version 2.0 (the "License");
    # you may not use this file except in compliance with the License.
    # You may obtain a copy of the License at
    #
    #     http://www.apache.org/licenses/LICENSE-2.0
    #
    # Unless required by applicable law or agreed to in writing, software
    # distributed under the License is distributed on an "AS IS" BASIS,
    # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    # See the License for the specific language governing permissions and
    # limitations under the License.
    
    set -o nounset
    set -o errexit
    set -o pipefail
    
    function GetMetadata() {
      curl -s "$1" -H "Metadata-Flavor: Google"
    }
    
    PROJECT_METADATA_URL="http://metadata.google.internal/computeMetadata/v1/project/attributes"
    INSTANCE_METADATA_URL="http://metadata.google.internal/computeMetadata/v1/instance"
    ZONE=$(GetMetadata "$INSTANCE_METADATA_URL/zone" | cut -d '/' -f 4)
    INSTANCE_NAME=$(hostname)
    
    # We keep track of the state to make sure failure and recovery is triggered only once.
    STATE="healthy"
    while true; do
      if [[ "$ZONE" = "$(GetMetadata $PROJECT_METADATA_URL/failed_zone)" ]] && \
         [[ "$INSTANCE_NAME" = *"$(GetMetadata $PROJECT_METADATA_URL/failed_instance_names)"* ]]; then
        if [[ "$STATE" = "healthy" ]]; then
          STATE="failure"
          # Do something to simulate failure here.
          echo "STARTING A FAILURE"
          /etc/init.d/apache2 stop
        fi
      else
        if [[ "$STATE" = "failure" ]] ; then
          STATE="healthy"
          # Do something to recover here.
          echo "RECOVERING FROM FAILURE"
          /etc/init.d/apache2 start
        fi
      fi
      sleep 5
    done
    
    
  2. Simula un errore di zona impostando questi due campi di metadati di progetto:

    • failed_zone: imposta la zona in cui vuoi simulare l'interruzione (limita l'errore a una sola zona).
    • failed_instance_names: scegli in base al nome le VM da mettere offline (per limitare l'errore solo ai nomi delle VM contenenti questa stringa).

    Puoi impostare questi metadati utilizzando gcloud CLI. Ad esempio, il seguente comando imposta l'interruzione della zona sulla zona europe-west1-b e interessa le VM che hanno nomi che iniziano con base-instance-name:

    gcloud compute project-info add-metadata --metadata failed_zone='europe-west1-b',failed_instance_names='base-instance-name-'
  3. Dopo aver simulato l'interruzione, ripristina l'errore rimuovendo le chiavi dei metadati:

    gcloud compute project-info remove-metadata --keys failed_zone,failed_instance_names

Di seguito sono riportate alcune idee per scenari di errore che puoi eseguire utilizzando questo script:

  • Interrompi completamente l'applicazione per vedere come risponde il gruppo di istanze gestite.
  • Fai in modo che le VM restituiscano lo stato "non integro" sui controlli di integrità del bilanciamento del carico.
  • Modifica iptables per bloccare parte del traffico da e verso la VM.
  • Arresta le VM. Per impostazione predefinita, verrà ricreato dal gruppo di istanze gestite a livello di regione poco dopo, ma la nuova versione si chiuderà immediatamente non appena lo script viene eseguito e a condizione che siano impostati i valori dei metadati. Verrà generato un loop di arresto anomalo.

Passaggi successivi