Questa pagina elenca tutti i problemi noti di Google Distributed Cloud su VMware. Questa pagina è rivolta agli amministratori IT e agli operatori che gestiscono il ciclo di vita dell'infrastruttura tecnologica di base e rispondono agli avvisi e alle pagine quando gli SLO (obiettivi a livello di servizio) non vengono raggiunti o le applicazioni non funzionano. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei Google Cloud contenuti, consulta Ruoli e attività comuni degli utenti di GKE Enterprise.
Se partecipi al programma per sviluppatori Google, salva questa pagina per ricevere notifiche quando viene pubblicata una nota di rilascio relativa a questa pagina. Per approfondire, consulta la sezione Pagine salvate.
Per filtrare i problemi noti in base a una versione o categoria di prodotto, seleziona i filtri che preferisci dai menu a discesa riportati di seguito.
Seleziona la versione di Google Distributed Cloud:
Seleziona la categoria del problema:
In alternativa, cerca il problema:
Categoria | Versioni identificate | Problema e soluzione alternativa |
---|---|---|
Upgrade | 1,28, 1,29, 1,30 |
Il nodo del control plane di amministrazione HA mostra una versione precedente dopo l'esecuzione di
|
Installazione, upgrade e aggiornamenti | 1,31 |
Errori durante la creazione di risorse personalizzateNella versione 1.31 di Google Distributed Cloud, potresti ricevere errori quando
provi a creare risorse personalizzate, come cluster (di tutti i tipi) e
carichi di lavoro. Il problema è causato da una modifica incompatibile introdotta in Kubernetes 1.31 che impedisce al campo Prima di Kubernetes 1.31, il campo Se il ...Invalid value: []byte{0x5c, 0x6e}: unable to load root certificates: unable to parse bytes as PEM block] Soluzione Se hai una definizione di risorsa personalizzata in cui |
Sistema operativo | 1,31 |
|
Upgrade | 1,28 |
Il controllo preliminare della workstation di amministrazione non va a buon fine durante l'upgrade alla versione 1.28 con dimensioni del disco inferiori a 100 GBDurante l'upgrade di un cluster alla versione 1.28, il comando Workstation Hardware: Workstation hardware requirements are not satisfied Nella versione 1.28, il prerequisito della dimensione del disco della stazione di lavoro dell'amministratore è stato aumentato da 50 GB a 100 GB. Soluzione:
|
Upgrade | 1,30 |
|
VMware, upgrade | 1,16 |
L'upgrade del cluster non riesce a causa della mancanza della regola del gruppo anti-affinità in vCenterDurante un upgrade del cluster, gli oggetti macchina potrebbero bloccarsi nella fase "Creazione" e non riuscire a collegarsi agli oggetti nodo a causa di una regola del gruppo anti-affinità (AAG) mancante in vCenter. Se descrivi gli oggetti macchina problematici, puoi vedere messaggi ricorrenti come "Reconfigure DRS rule task "task-xxxx" complete" kubectl --kubeconfig Soluzione: Disattiva l'impostazione del gruppo anti-affinità sia nella configurazione del cluster di amministrazione sia nella configurazione del cluster utente e attiva il comando di aggiornamento forzato per sbloccare l'upgrade del cluster: gkectl update admin --config gkectl update cluster --config |
Upgrade | 1,16 |
Comando etcdctl non trovato durante l'upgrade del cluster nella fase di backup del cluster di amministrazioneDurante l'upgrade di un cluster utente da 1.16 a 1.28, viene eseguito il backup del cluster di amministrazione. Il processo di backup del cluster amministrativo mostra il messaggio di errore "etcdctl: command not found". L'upgrade del cluster utente riesce e il cluster di amministrazione rimane in uno stato integro. L'unico problema è che il file dei metadati nel cluster di amministrazione non è sottoposto a backup. Il problema è dovuto al fatto che il file binario Il backup del cluster di amministrazione prevede diversi passaggi, tra cui l'acquisizione di un'istantanea di etcd e la scrittura del file dei metadati per il cluster di amministrazione.
Il backup di etcd riesce comunque perché Soluzione: Se vuoi eseguire il backup del file dei metadati, segui la procedura Eseguire il backup e il ripristino di un cluster di amministrazione con gkectl per attivare un backup distinto del cluster di amministrazione utilizzando la versione di |
Installazione | 1,16-1,29 |
Errore di creazione del cluster utente con bilanciamento del carico manualeQuando viene creato un cluster di utenti configurato per il bilanciamento del carico manuale, si verifica un errore Questo problema si verifica indipendentemente dal fatto che i campi Soluzione: Per risolvere il problema, ignora il risultato restituito da
|
Logging e monitoraggio | 1,14 |
Numero elevato di richieste GRPC non riuscite in etcd in Prometheus Alert ManagerPrometheus potrebbe segnalare avvisi simili al seguente esempio: Alert Name: cluster:gke-admin-test1: Etcd cluster kube-system/kube-etcd: 100% of requests for Watch failed on etcd instance etcd-test-xx-n001. Per verificare se questo avviso è un falso positivo che può essere ignorato: completa i seguenti passaggi:
Soluzione: Per configurare Prometheus in modo da ignorare questi avvisi di falsi positivi, esamina le seguenti opzioni:
|
Upgrade, aggiornamenti | 1,16 |
Errore di montaggio del volume durante l'upgrade/l'aggiornamento del cluster di amministrazione se si utilizza un cluster di amministrazione non ad alta disponibilità e un cluster utente del piano di controllo v1Per un cluster di amministrazione non ad alta disponibilità e un cluster utente del control plane versione 1, quando esegui l'upgrade o l'aggiornamento del cluster di amministrazione, la ricreazione della macchina principale del cluster di amministrazione potrebbe avvenire contemporaneamente al riavvio della macchina principale del cluster utente, il che può causare una condizione di gara. Di conseguenza, i pod del piano di controllo del cluster utente non riescono a comunicare con il piano di controllo del cluster di amministrazione, causando problemi di attacco dei volumi per kube-etcd e kube-apiserver sul piano di controllo del cluster utente. Per verificare il problema, esegui i seguenti comandi per il pod interessato: kubectl --kubeconfig Events: Type Reason Age From Message ---- ------ ---- ---- ------- Warning FailedMount 101s kubelet Unable to attach or mount volumes: unmounted volumes=[kube-audit], unattached volumes=[], failed to process volumes=[]: timed out waiting for the condition Warning FailedMount 86s (x2 over 3m28s) kubelet MountVolume.SetUp failed for volume "pvc-77cd0635-57c2-4392-b191-463a45c503cb" : rpc error: code = FailedPrecondition desc = volume ID: "bd313c62-d29b-4ecd-aeda-216648b0f7dc" does not appear staged to "/var/lib/kubelet/plugins/kubernetes.io/csi/csi.vsphere.vmware.com/92435c96eca83817e70ceb8ab994707257059734826fedf0c0228db6a1929024/globalmount" Soluzione:
|
Operazione | 1,16 |
Un nome host duplicato nello stesso data center causa errori di creazione o upgrade del clusterL'upgrade di un cluster 1.15 o la creazione di un cluster 1.16 con IP statici non riesce se esistono nomi host duplicati nello stesso data center. Questo errore si verifica perché il gestore del controller cloud vSphere non riesce ad aggiungere un ID provider e un indirizzo IP esterno nell'oggetto del nodo. Di conseguenza, l'upgrade/la creazione del cluster scade. Per identificare il problema, recupera i log del pod del gestore del controller cloud vSphere per il cluster. Il comando utilizzato dipende dal tipo di cluster, come segue:
Ecco un esempio di messaggio di errore: I1003 17:17:46.769676 1 search.go:152] Finding node admin-vm-2 in vc=vcsa-53598.e5c235a1.asia-northeast1.gve.goog and datacenter=Datacenter E1003 17:17:46.771717 1 datacenter.go:111] Multiple vms found VM by DNS Name. DNS Name: admin-vm-2 Controlla se il nome host è duplicato nel data center: Puoi utilizzare il seguente approccio per verificare se il nome host è duplicato e, se necessario, applicare una soluzione alternativa.export GOVC_DATACENTER= export GOVC_DATACENTER=mtv-lifecycle-vc01 export GOVC_URL=https://mtv-lifecycle-vc01.anthos/sdk export GOVC_USERNAME=xxx export GOVC_PASSWORD=yyy export GOVC_INSECURE=true govc find . -type m -guest.hostName f8c3cd333432-lifecycle-337-xxxxxxxz ./vm/gke-admin-node-6b7788cd76-wkt8g ./vm/gke-admin-node-6b7788cd76-99sg2 ./vm/gke-admin-master-5m2jb La soluzione alternativa che esegui dipende dall'operazione non riuscita. Soluzione alternativa per gli upgrade: Applica la soluzione alternativa per il tipo di cluster applicabile.
Soluzione alternativa per le installazioni: Applica la soluzione alternativa per il tipo di cluster applicabile.
|
Operazione | 1.13.1 e versioni successive, 1.14, 1., 1,16 |
I server virtuali F5 BIG-IP non vengono ripuliti quando Terraform elimina i cluster utenteQuando utilizzi Terraform per eliminare un cluster di utenti con un bilanciatore del carico F5 BIG-IP, i server virtuali F5 BIG-IP non vengono rimossi dopo l'eliminazione del cluster. Soluzione: Per rimuovere le risorse F5, segui i passaggi per ripulire una partizione F5 di un cluster utente |
Networking | 1,14 |
Tempi di attesa dell'applicazione causati da errori di inserimento della tabella conntrackLa versione 1.14 di Google Distributed Cloud è soggetta a errori di inserimento della tabella di monitoraggio delle connessioni (conntrack) di netfilter quando si utilizzano immagini del sistema operativo Ubuntu o COS. I fallimenti di inserimento comportano timeout dell'applicazione casuali e possono verificarsi anche quando la tabella conntrack ha spazio per nuove voci. Gli errori sono causati da modifiche nel kernel 5.15 e versioni successive che limitano le inserzioni di tabelle in base alla lunghezza della catena. Per verificare se il problema riguarda il tuo sistema, puoi controllare le statistiche del sistema di monitoraggio delle connessioni in-kernel su ogni nodo con il seguente comando: sudo conntrack -S La risposta è simile alla seguente: cpu=0 found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0 error=0 search_restart=0 clash_resolve=0 chaintoolong=0 cpu=1 found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0 error=0 search_restart=0 clash_resolve=0 chaintoolong=0 cpu=2 found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0 error=0 search_restart=0 clash_resolve=0 chaintoolong=0 cpu=3 found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0 error=0 search_restart=0 clash_resolve=0 chaintoolong=0 cpu=4 found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0 error=0 search_restart=0 clash_resolve=0 chaintoolong=0 cpu=5 found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0 error=519 search_restart=0 clash_resolve=126 chaintoolong=0 ... Se un valore Soluzione La mitigazione a breve termine consiste nell'aumentare le dimensioni sia della tabella hash di netfilter ( sysctl -w net.netfilter.nf_conntrack_buckets= Sostituisci TABLE_SIZE con le nuove dimensioni in byte. Il valore predefinito della dimensione della tabella è |
Installazione | 1,12 |
L'installazione del cluster utente non è riuscita a causa di un problema di elezione del leader di cert-manager/ca-injectorPotresti notare un errore di installazione a causa di # These are logs from `cert-manager-cainjector`, from the command # `kubectl --kubeconfig USER_CLUSTER_KUBECONFIG -n kube-system cert-manager-cainjector-xxx` I0923 16:19:27.911174 1 leaderelection.go:278] failed to renew lease kube-system/cert-manager-cainjector-leader-election: timed out waiting for the condition E0923 16:19:27.911110 1 leaderelection.go:321] error retrieving resource lock kube-system/cert-manager-cainjector-leader-election-core: Get "https://10.96.0.1:443/api/v1/namespaces/kube-system/configmaps/cert-manager-cainjector-leader-election-core": context deadline exceeded I0923 16:19:27.911593 1 leaderelection.go:278] failed to renew lease kube-system/cert-manager-cainjector-leader-election-core: timed out waiting for the condition E0923 16:19:27.911629 1 start.go:163] cert-manager/ca-injector "msg"="error running core-only manager" "error"="leader election lost" Soluzione: Visualizza i passaggi della soluzione alternativaEsegui i seguenti comandi per attenuare il problema. Per prima cosa, esegui lo scale down di kubectl --kubeconfig USER_CLUSTER_KUBECONFIG -n kube-system \ scale deployment monitoring-operator --replicas=0 Modifica il deployment # Add a command line flag for cainjector: `--leader-elect=false` kubectl --kubeconfig USER_CLUSTER_KUBECONFIG edit \ -n kube-system deployment cert-manager-cainjector Lo snippet YAML pertinente per il deployment di ... apiVersion: apps/v1 kind: Deployment metadata: name: cert-manager-cainjector namespace: kube-system ... spec: ... template: ... spec: ... containers: - name: cert-manager image: "gcr.io/gke-on-prem-staging/cert-manager-cainjector:v1.0.3-gke.0" args: ... - --leader-elect=false ... Mantieni le repliche Al termine dell'installazione e quando il cluster è attivo e funzionante, attiva kubectl --kubeconfig USER_CLUSTER_KUBECONFIG -n kube-system \ scale deployment monitoring-operator --replicas=1 Dopo ogni upgrade, le modifiche vengono annullate. Ripeti gli stessi passaggi per attenuare il problema fino a quando non verrà risolto in una release futura. |
Sicurezza | 1,13 |
Il servizio Kubelet non sarà temporaneamente disponibile dopo NodeReadyesiste un breve periodo in cui il nodo è pronto, ma il certificato del server
kubelet non è pronto. Questo problema riguarda solo il certificato del server kubelet e non influisce sulla programmazione dei pod. |
Upgrade, aggiornamenti | 1,12 |
L'upgrade parziale del cluster di amministrazione non blocca l'upgrade successivo del cluster utenteL'upgrade del cluster utente non è riuscito con: .LBKind in body is required (Check the status of OnPremUserCluster 'cl-stg-gdl-gke-onprem-mgmt/cl-stg-gdl' and the logs of pod 'kube-system/onprem-user-cluster-controller' for more detailed debugging information. L'upgrade del cluster di amministrazione non è stato completato e la versione dello stato è ancora 1.10. L'upgrade del cluster utente alla versione 1.12 non verrà bloccato da alcun controllo preflight e non andrà a buon fine a causa di un problema di sfasamento della versione. Soluzione: Esegui l'upgrade del cluster di amministrazione alla versione 1.11 e poi del cluster utente alla versione 1.12. |