Percorso di apprendimento: applicazioni scalabili - Simula un errore


Questo insieme di tutorial è rivolto agli amministratori IT e agli operatori che vogliono per eseguire il deployment, eseguire e gestire ambienti applicativi moderni in esecuzione Google Kubernetes Engine (GKE) Enterprise. Man mano che procedi in questa serie di tutorial, impari a configurare monitoraggio e avvisi, scalare carichi di lavoro e simulare errori, il tutto utilizzando l'applicazione di microservizi di esempio di Cymbal Bank:

  1. Crea un cluster ed esegui il deployment di un'applicazione di esempio
  2. Monitoraggio con Google Cloud Managed Service per Prometheus
  3. Scala i carichi di lavoro
  4. Simula un errore (questo tutorial)

Panoramica e obiettivi

Le applicazioni devono essere in grado di tollerare interruzioni e guasti. Questa funzionalità consente gli utenti continuano ad accedere alle tue applicazioni anche quando si verifica un problema. La L'applicazione di esempio Cymbal Bank è progettata per gestire gli errori e continuare senza doverti occupare della risoluzione dei problemi. Per fornire resilienza, i cluster a livello di regione di GKE distribuiscono i nodi di computing e il controller Kubernetes risponde automaticamente ai problemi di servizio all'interno del cluster.

In questo tutorial imparerai a simulare un errore in Google Cloud e a vedere come rispondono i servizi delle applicazioni nel cluster della versione Google Kubernetes Engine (GKE) Enterprise. Imparerai a completare le attività seguenti:

  • Rivedere la distribuzione di nodi e servizi.
  • Simula un errore di un nodo o di una zona.
  • Verifica che i servizi continuino a essere eseguiti sui nodi rimanenti.

Costi

Esempio di abilitazione di GKE Enterprise e deployment di Cymbal Bank di applicazione per questa serie di tutorial prevede che siano applicati costi per cluster addebita costi per GKE Enterprise su Google Cloud come elencato Pagina dei prezzi fino a quando non disabiliterai GKE Enterprise o non elimini il progetto.

Sei inoltre responsabile di altri costi di Google Cloud sostenuti durante l'esecuzione del Applicazione di esempio di Cymbal Bank, ad esempio gli addebiti per le VM di Compute Engine.

Prima di iniziare

Per scoprire come simulare un errore, devi completare la primo tutorial per creare un cluster GKE che usa Autopilot ed eseguire il deployment l'applicazione di esempio basata su microservizi di Cymbal Bank.

Ti consigliamo di completare questo insieme di tutorial per Cymbal Bank in ordine. Man mano che procedi nella serie di tutorial, acquisisci nuove competenze e utilizzi e altri prodotti e servizi Google Cloud.

Rivedi la distribuzione di nodi e servizi

In Google Cloud, una regione è una posizione geografica specifica in cui puoi ospitare le tue risorse. Le regioni hanno tre o più zone. Ad esempio, La regione us-central1 indica una regione del Midwest degli Stati Uniti con più zone, ad esempio us-central1-a, us-central1-b e us-central1-c. Le zone hanno connessioni di rete a bassa latenza e a larghezza di banda elevata nella stessa regione.

Per eseguire il deployment di applicazioni a tolleranza di errore con disponibilità elevata, Google di eseguire il deployment delle applicazioni in più zone regioni. Questo approccio contribuisce a proteggere da guasti imprevisti dei componenti, fino a una zona o una regione incluse.

Quando hai creato il tuo cluster GKE Enterprise nel corso sono stati utilizzati alcuni valori di configurazione predefiniti. Per impostazione predefinita, un cluster GKE Enterprise che utilizza Autopilot crea esegue nodi distribuiti in più zone della regione specificata. Questo significa che è già stato eseguito il deployment dell'applicazione di esempio di Cymbal Bank in più zone, per proteggerti da guasti imprevisti.

  1. Controlla la distribuzione dei nodi in GKE Enterprise cluster:

    kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'
    

    Il risultato è simile all'output di esempio seguente che mostra i nodi sono distribuite in tutte e tre le zone della regione:

    NAME                         ZONE            INT_IP
    scalable-apps-pool-2-node5   us-central1-c   10.148.0.6
    scalable-apps-pool-2-node6   us-central1-c   10.148.0.7
    scalable-apps-pool-2-node2   us-central1-a   10.148.0.8
    scalable-apps-pool-2-node1   us-central1-a   10.148.0.9
    scalable-apps-pool-2-node3   us-central1-b   10.148.0.5
    scalable-apps-pool-2-node4   us-central1-b   10.148.0.4
    
  2. Controlla la distribuzione dei servizi dell'applicazione di esempio di Cymbal Bank su dei nodi dei cluster GKE Enterprise:

    kubectl get pods -o wide
    

    L'output di esempio seguente mostra che i servizi sono distribuiti tra nodi nel cluster. Dal passaggio precedente per verificare come sono distribuiti, questo output mostra che i servizi vengono eseguiti in zone regione:

    NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
    accounts-db-0                         1/1     Running   0          6m30s   10.28.1.5   scalable-apps-pool-2-node3
    balancereader-7dc7d9ff57-shwg5        1/1     Running   0          6m30s   10.28.5.6   scalable-apps-pool-2-node1
    contacts-7ddc76d94-qv4x5              1/1     Running   0          6m29s   10.28.4.6   scalable-apps-pool-2-node2
    frontend-747b84bff4-xvjxq             1/1     Running   0          6m29s   10.28.3.6   scalable-apps-pool-2-node6
    ledger-db-0                           1/1     Running   0          6m29s   10.28.5.7   scalable-apps-pool-2-node1
    ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          6m29s   10.28.1.6   scalable-apps-pool-2-node3
    loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          6m29s   10.28.4.7   scalable-apps-pool-2-node2
    transactionhistory-5dd7c7fd77-cmc2w   1/1     Running   0          6m29s   10.28.3.7   scalable-apps-pool-2-node6
    userservice-cd5ddb4bb-zfr2g           1/1     Running   0          6m28s   10.28.5.8   scalable-apps-pool-2-node1
    

Simula un'interruzione

Google progetta zone per ridurre al minimo il rischio di errori correlati causati da per interruzioni dell'infrastruttura fisica, ad esempio di alimentazione, raffreddamento o networking. Tuttavia, possono verificarsi problemi imprevisti. Se un nodo o una zona non sono più disponibili, I servizi continueranno a essere eseguiti su altri nodi o in zone nella stessa regione.

Il controller Kubernetes monitora lo stato di nodi, servizi e deployment nel tuo cluster. Se si verifica un'interruzione imprevista, riavvia le risorse interessate e il traffico viene indirizzato ai nodi funzionanti.

Per simulare un'interruzione in questo tutorial, contrassegna e svuota i nodi in una delle le tue zone. Questo approccio simula ciò che accade in caso di errore di un nodo o quando l'intera zona presenta un problema. Il controller Kubernetes deve riconoscere che alcune I servizi non sono più disponibili e devono essere riavviati sui nodi in altre zone:

  • Non disturbare e svuotare i nodi in una delle zone. L'esempio seguente ha come target i due nodi in us-central1-a:

    kubectl drain scalable-apps-pool-2-node1 \
        --delete-emptydir-data --ignore-daemonsets
    
    kubectl drain scalable-apps-pool-2-node2 \
        --delete-emptydir-data --ignore-daemonsets
    

    Questo comando contrassegna i nodi come non pianificabili, impedendo così l'esecuzione dei pod su questi nodi. Kubernetes ripianifica i pod in altri nodi in funzione diverse.

Controlla la risposta all'errore simulata

In un tutorial precedente di questa serie, hai imparato a configurare l'istanza Prometheus gestita il cluster GKE Enterprise per monitorare alcuni servizi e e generare avvisi in caso di problemi. Se i pod erano in esecuzione su nodi nella zona in cui hai simulato un'interruzione, ricevi messaggi di notifica di Slack generati da Prometheus. Questo comportamento mostra come creare un modello che monitora l'integrità dei tuoi deployment, ti avvisa se c'è un problema e può adattarsi automaticamente alle modifiche o agli errori del caricamento.

Il tuo cluster GKE Enterprise risponde automaticamente interruzione simulata. Tutti i servizi sui nodi interessati vengono riavviati nodi.

  1. Controlla la distribuzione dei nodi in GKE Enterprise di nuovo nel cluster:

    kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'
    

    Il risultato è simile all'output di esempio seguente che mostra i nodi ora sono distribuiti solo in due delle zone della regione:

    NAME                         ZONE            INT_IP
    scalable-apps-pool-2-node5   us-central1-c   10.148.0.6
    scalable-apps-pool-2-node6   us-central1-c   10.148.0.7
    scalable-apps-pool-2-node3   us-central1-b   10.148.0.5
    scalable-apps-pool-2-node4   us-central1-b   10.148.0.4
    
  2. Il controller Kubernetes riconosce che due nodi non sono più disponibili e ridistribuisce i servizi tra i nodi disponibili. Tutte le I servizi dovrebbero continuare a funzionare.

    Controlla la distribuzione dei servizi dell'applicazione di esempio di Cymbal Bank su dei nodi dei cluster GKE Enterprise:

    kubectl get pods -o wide
    

    L'output di esempio seguente mostra che i servizi sono distribuiti tra dai nodi rimanenti nel cluster. Dal passaggio precedente per controllare come di nodi sono distribuiti, questo output mostra che ora i servizi vengono eseguiti in due zone della regione:

    NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
    accounts-db-0                         1/1     Running   0          28m     10.28.1.5   scalable-apps-pool-2-node3
    balancereader-7dc7d9ff57-shwg5        1/1     Running   0          9m21s   10.28.5.6   scalable-apps-pool-2-node5
    contacts-7ddc76d94-qv4x5              1/1     Running   0          9m20s   10.28.4.6   scalable-apps-pool-2-node4
    frontend-747b84bff4-xvjxq             1/1     Running   0          28m     10.28.3.6   scalable-apps-pool-2-node6
    ledger-db-0                           1/1     Running   0          9m24s   10.28.5.7   scalable-apps-pool-2-node3
    ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          28m     10.28.1.6   scalable-apps-pool-2-node3
    loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          9m21s   10.28.4.7   scalable-apps-pool-2-node5
    transactionhistory-5dd7c7fd77-cmc2w   1/1     Running   0          28m     10.28.3.7   scalable-apps-pool-2-node6
    userservice-cd5ddb4bb-zfr2g           1/1     Running   0          9m20s   10.28.5.8   scalable-apps-pool-2-node1
    
  3. Guarda i AGE dei Servizi. Nell'output di esempio precedente, alcune delle i Servizi hanno un'età inferiore rispetto agli altri presenti nel campione di Cymbal Bank un'applicazione. Questi servizi più recenti venivano eseguiti in precedenza su uno dei nodi in cui hai simulato l'errore. Il controller Kubernetes ha riavviato questi servizi in data nodi disponibili.

In uno scenario reale, dovresti risolvere il problema o attendere che lo stato di manutenzione. Se hai configurato Prometheus per inviare Slack in base agli avvisi, riceverai queste notifiche. Puoi anche facoltativamente ripetere i passaggi il tutorial precedente sulla scalabilità delle risorse per vedere come risponde il tuo cluster GKE Enterprise con una maggiore vengono caricati solo quando sono disponibili solo due zone all'interno della regione. Il cluster deve scalare con le due zone rimanenti disponibili.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate. In questo tutorial, elimina il progetto che hai creato.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Prima di iniziare a creare il tuo cluster GKE Enterprise simile a quello che hai visto in questa serie di tutorial, esaminare alcune considerazioni sulla produzione.