Risoluzione dei problemi e operazioni per Ingress multi-cluster


Il controller Ingress di GKE Enterprise gestisce Compute Engine Google Cloud. Le risorse MultiClusterIngress e MultiClusterService vengono mappate a diverse risorse Compute Engine, pertanto comprendere la relazione tra queste risorse ti aiuta a risolvere i problemi. Ad esempio, esamina il seguente MultiClusterIngress risorsa:

apiVersion: extensions/v1beta1
kind: MultiClusterIngress
metadata:
  name: foo-ingress
spec:
  template:
    spec:
      rules:
      - host: store.foo.com
        http:
          paths:
          - backend:
              serviceName: store-foo
              servicePort: 80
      - host: search.foo.com
        http:
          paths:
          - backend:
              serviceName: search-foo
              servicePort: 80

Mappature delle risorse di Compute Engine a Ingress multi-cluster

La tabella seguente mostra la mappatura delle risorse del parco alle risorse create nei cluster Kubernetes e in Google Cloud:

Risorsa Kubernetes Risorsa Google Cloud Descrizione
MultiClusterIngress Regola di forwarding VIP del bilanciatore del carico HTTP(S).
Proxy di destinazione Impostazioni di terminazione HTTP/S tratte dalle annotazioni e dal blocco TLS.
Mappa URL Mappatura del percorso host virtuale dalla sezione Regole.
MultiClusterService Servizio Kubernetes Risorsa derivata dal modello.
Servizio di backend Viene creato un servizio di backend per ogni coppia (servizio, ServicePort).
Gruppi di endpoint di rete Insieme di pod di backend che partecipano al servizio.

Ispezione delle risorse del bilanciatore del carico di Compute Engine

Dopo aver creato un bilanciatore del carico, lo stato Ingress multi-cluster conterrà nomi di ogni risorsa Compute Engine creata per costruire con il bilanciatore del carico di rete passthrough esterno regionale. Ad esempio:

Name:         shopping-service
Namespace:    prod
Labels:       <none>
Annotations:  <none>
API Version:  networking.gke.io/v1beta1
Kind:         MultiClusterIngress
Metadata:
  Creation Timestamp:  2019-07-16T17:23:14Z
  Finalizers:
    mci.finalizer.networking.gke.io
Spec:
  Template:
    Spec:
      Backend:
        Service Name:  shopping-service
        Service Port:  80
Status:
  VIP:  34.102.212.68
  CloudResources:
    Firewalls: "mci-l7"
    ForwardingRules: "mci-abcdef-myforwardingrule"
    TargetProxies: "mci-abcdef-mytargetproxy"
    UrlMap: "mci-abcdef-myurlmap"
    HealthChecks: "mci-abcdef-80-myhealthcheck"
    BackendServices: "mci-abcdef-80-mybackendservice"
    NetworkEndpointGroups: "k8s1-neg1", "k8s1-neg2", "k8s1-neg3"

VIP non creato

Se non vedi un VIP, è possibile che si sia verificato un errore durante la sua creazione. Per verificare se si è verificato un errore, esegui questo comando:

kubectl describe mci shopping-service

L'output potrebbe essere simile al seguente:

Name:         shopping-service
Namespace:    prod
Labels:       <none>
Annotations:  <none>
API Version:  networking.gke.io/v1beta1
Kind:         MultiClusterIngress
Metadata:
  Creation Timestamp:  2019-07-16T17:23:14Z
  Finalizers:
    mci.finalizer.networking.gke.io
Spec:
  Template:
    Spec:
      Backend:
        Service Name:  shopping-service
        Service Port:  80
Status:
  VIP:  34.102.212.68
Events:
  Type     Reason  Age   From                              Message
  ----     ------  ----  ----                              -------
  Warning  SYNC    29s   multi-cluster-ingress-controller  error translating MCI prod/shopping-service: exceeded 4 retries with final error: error translating MCI prod/shopping-service: multiclusterservice prod/shopping-service does not exist

In questo esempio, l'errore era che l'utente non ha creato un MultiClusterService risorsa a cui fa riferimento un MultiClusterIngress.

Risposta 502

Se il bilanciatore del carico ha acquisito un VIP, ma restituisce costantemente una risposta 502, è possibile che i controlli di integrità del bilanciatore del carico non funzionino. I controlli di integrità potrebbero non riuscire per due motivi:

  1. I pod dell'applicazione non sono integri (vedi debug della console Cloud, ad esempio).
  2. Un firewall configurato in modo errato impedisce ai controlli di integrità di Google di eseguire i controlli di integrità.

Nel caso del passaggio 1, assicurati che la tua applicazione stia effettivamente pubblicando 200 risposta sulla barra "/" del tuo percorso di apprendimento.

Nel caso del passaggio #2, assicurati che un firewall denominato "mci-default-l7" esiste in del tuo VPC. Il controller Ingress crea il firewall nel VPC per assicurarsi che i controllori di integrità di Google possano raggiungere i tuoi backend. Se il firewall non esiste, assicurati che non sia presente un'automazione esterna che lo elimini al momento della creazione.

Traffico non aggiunto o rimosso dal cluster

Quando aggiungi una nuova appartenenza, il traffico deve raggiungere i backend nella cluster sottostante, quando possibile. Analogamente, se un abbonamento viene rimosso, nessun traffico dovrebbe raggiungere i backend nel cluster sottostante. Se non sei osservando questo comportamento, verifica la presenza di errori in MultiClusterIngress e MultiClusterService risorsa.

I casi comuni in cui si verifica questo errore includono l'aggiunta di un nuovo abbonamento su un cluster GKE non in modalità nativa VPC o l'aggiunta di un nuovo abbonamento, ma senza il deployment di un'applicazione nel cluster GKE.

  1. Descrivi il MultiClusterService:

    kubectl describe mcs zone-svc
    
  2. Descrivi il MultiClusterIngress:

    kubectl describe mci zone-mci
    

Migrazione dei cluster di configurazione

Per saperne di più sui casi d'uso per la migrazione, consulta il concetto di progettazione del cluster Config.

La migrazione dei cluster di configurazione può essere un'operazione invasiva se non viene gestita correttamente. Segui queste linee guida quando esegui una migrazione del cluster di configurazione:

  1. Assicurati di utilizzare annotazione IP statico sulle tue risorse MultiClusterIngress. In caso contrario, ha subito interruzioni del traffico durante la migrazione. Gli IP temporanei verranno ricreati durante la migrazione dei cluster di configurazione.
  2. Le risorse MultiClusterIngress e MultiClusterService devono essere il deployment è identico a quello del cluster di configurazione esistente e di quello nuovo. Differenze tra di loro comporterà la riconciliazione di MultiClusterService e MultiClusterIngress risorse diverse nel nuovo cluster di configurazione.
  3. È attivo un solo cluster di configurazione alla volta. Finché il cluster di configurazione non viene modificato, le risorse MultiClusterIngress e MultiClusterService nel nuovo cluster di configurazione non influiscono sulle risorse del bilanciatore del carico.

Per eseguire la migrazione del cluster di configurazione, esegui questo comando:

  gcloud container fleet ingress update \
    --config-membership=projects/project_id/locations/global/memberships/new_config_cluster

Verifica che il comando abbia funzionato verificando che non siano presenti errori visibili nel Stato della funzionalità:

  gcloud container fleet ingress describe

Debug della console

Nella maggior parte dei casi, è utile controllare lo stato esatto del bilanciatore del carico a eseguire il debug di un problema. Per trovare il bilanciatore del carico, vai a Bilanciamento del carico nella console Google Cloud.

Codici di errore/avviso

Ingress multi-cluster emette codici di errore e di avviso su MultiClusterIngress e MultiClusterService e gcloud multiclusteringress Campo della descrizione dei problemi noti. Questi messaggi sono dotati di codici di errore e di avviso documentati per semplificare la comprensione del significato di un malfunzionamento. Ogni codice è costituito da un ID errore nel formato AVMBR123, dove 123 è un numero univoco che corrisponde a un errore o un avviso e suggerimenti su come risolverlo.

AVMBR101: Annotation [NAME] not recognized

Questo errore viene visualizzato quando viene specificata un'annotazione in un manifest MultiClusterIngress o MultiClusterService non riconosciuto. Esistono diversi motivi per cui l'annotazione potrebbe non essere riconosciuta:

  1. L'annotazione non è supportata in Ingress multi-cluster. Questo può essere previsto se annoti risorse che non dovrebbero essere utilizzate dal controller Ingress di GKE Enterprise.

  2. L'annotazione è supportata, ma è scritta male e quindi non è riconosciuta.

In entrambi i casi, fai riferimento alla documentazione per comprendere annotazioni supportate e come vengono specificati.

AVMBR102: [RESOURCE_NAME] not found

Questo errore viene visualizzato quando una risorsa supplementare è specificata in un MultiClusterIngress, ma non è presente nel gruppo di appartenenza della configurazione. Ad esempio: questo errore viene generato quando MultiClusterIngress si riferisce a un MultiClusterService non trovato o MultiClusterService si riferisce a una BackendConfig che impossibile trovare. Esistono diversi motivi per cui una risorsa non è stata trovata:

  1. Non si trova nello spazio dei nomi corretto. Assicurati che le risorse che fanno riferimento a ognuna altre si trovano nello stesso spazio dei nomi.
  2. Il nome della risorsa non è scritto correttamente.
  3. La risorsa non esiste con lo spazio dei nomi e il nome appropriati. In questo caso, crealo.

AVMBR103: [CLUSTER_SELECTOR] is invalid

Questo errore viene visualizzato quando un selettore di cluster specificato in un MultiClusterService non è valido. Questo selettore potrebbe non essere valido per due motivi:

  1. La stringa fornita contiene un errore di battitura.
  2. La stringa fornita si riferisce a un'appartenenza al cluster che non esiste più in della flotta.

AVMBR104: Cannot find NEGs for Service Port [SERVICE_PORT]

Questo errore viene generato quando non è possibile trovare i gruppi di endpoint di rete (NEG) per una determinata coppia di MultiClusterService e porta di servizio. I NEG sono le risorse che contengono gli endpoint dei pod in ciascuno dei tuoi cluster di backend. La Il motivo principale per cui i NEG potrebbero non esistere è che si è verificato un errore durante la creazione o aggiornare i servizi derivati nei cluster di backend. Controlla gli eventi su la tua risorsa MultiClusterService per ulteriori informazioni.

AVMBR105: Missing GKE Enterprise license.

Questo errore viene visualizzato in Stato funzionalità e indica che l'API GKE Enterprise (anthos.googleapis.com) non è abilitata.

AVMBR106: Derived service is invalid: [REASON].

Questo errore viene visualizzato sotto gli eventi della risorsa MultiClusterService. Uno motivo comune per questo errore è che la risorsa Service derivata da MultiClusterService ha una specifica non valida.

Ad esempio, per MultiClusterService non è definito alcun ServicePort nelle sue specifiche.

apiVersion: networking.gke.io/v1
kind: MultiClusterService
metadata:
  name: zone-mcs
  namespace: whereami
spec:
  clusters:
  - link: "us-central1-a/gke-us"
  - link: "europe-west1-c/gke-eu"

Questo errore viene visualizzato in Stato della funzionalità e si verifica perché non esiste un cluster GKE alla base della risorsa Abbonamento. Puoi per verificarlo eseguendo questo comando:

gcloud container fleet memberships describe membership-name

e verificando che non esista un link alle risorse del cluster GKE nel campo dell'endpoint.

AVMBR108: GKE cluster [NAME] not found.

Questo errore viene visualizzato in Stato funzionalità e viene generato se il cluster GKE sottostante per l'abbonamento non esiste.

AVMBR109: [NAME] is not a VPC-native GKE cluster.

Questo errore viene visualizzato in Stato elemento. Questo errore viene generato se il cluster GKE specificato è un cluster basato su route. Il controller Ingress per più cluster crea un bilanciatore del carico nativo del container utilizzando i NEG. I cluster devono essere nativamente VPC per utilizzare un bilanciatore del carico nativo del container.

Per ulteriori informazioni, vedi Creazione di un cluster nativo di VPC.

AVMBR110: [IAM_PERMISSION] permission missing for GKE cluster [NAME].

Questo errore viene visualizzato in Stato elemento. Questo errore può verificarsi per diversi motivi:

  1. Il cluster GKE sottostante per l'abbonamento si trova in un progetto diverso dall'abbonamento stesso.
  2. L'autorizzazione IAM specificata è stata rimossa dall'agente di servizio MultiClusterIngress.

AVMBR111: Failed to get Config Membership: [REASON].

Questo errore viene visualizzato in Stato della funzionalità. Il motivo principale per cui si verifica questo errore è perché l'appartenenza alla configurazione è stata eliminata mentre la funzionalità è abilitata.

Non dovresti mai dover eliminare l'abbonamento di configurazione. Se vuoi modificarlo, segui i passaggi per la migrazione del cluster di configurazione.

AVMBR112: HTTPLoadBalancing Addon is disabled in GKE Cluster [NAME].

Questo errore viene visualizzato in Stato della funzionalità e si verifica quando HTTPLoadBalancing è disabilitato in un cluster GKE. Puoi aggiornare Cluster GKE per abilitare il componente aggiuntivo HTTPLoadBalancing:

gcloud container clusters update name --update-addons=HttpLoadBalancing=ENABLED

AVMBR113: This resource is orphaned.

In alcuni casi, l'utilità di una risorsa dipende dal fatto che sia richiamata da un'altra risorsa. Questo errore viene generato quando viene creata una risorsa Kubernetes, ma non viene fatta riferimento da un'altra risorsa. Ad esempio, vedrai questo errore se crei una risorsa BackendConfig a cui non fa riferimento un MultiClusterService.