Esta página foi traduzida pela API Cloud Translation.

Resolver problemas de criação ou upgrade de clusters

Esta página mostra como resolver problemas relacionados à instalação ou ao upgrade dos clusters do Google Distributed Cloud.

Problemas de instalação

As seções a seguir podem ajudar a resolver problemas de instalação do Google Distributed Cloud.

Mensagens de erro temporárias

O processo de instalação do Google Distributed Cloud é um processo de ciclo de reconciliação. Como resultado, podem aparecer mensagens de erro transitórias no registro durante a instalação.

Desde que a instalação seja concluída com êxito, esses erros podem ser ignorados com segurança. Veja abaixo uma lista de mensagens de erros transitórias e comuns:

  Internal error occurred: failed calling webhook "webhook.cert-manager.io": Post
  https://cert-manager-webhook.cert-manager.svc:443/mutate?timeout=10s:
  dial tcp IP_ADDRESS:443: connect: connection refused

  Internal error occurred: failed calling webhook "vcluster.kb.io": Post
  https://webhook-service.kube-system.svc:443/validate-baremetal-cluster-gke-io-v1-cluster?timeout=30s:
  dial tcp IP_ADDRESS:443: connect: connection refused

  Failed to register cluster with GKE Hub; gcloud output: error running command
  'gcloud container fleet memberships register CLUSTER_NAME  --verbosity=error --quiet':
  error: exit status 1, stderr: 'ERROR: (gcloud.container.hub.memberships.register)
  Failed to check if the user is a cluster-admin: Unable to connect to the server: EOF

  Get
  https://127.0.0.1:34483/apis/infrastructure.baremetal.cluster.gke.io/v1/namespaces/cluster-
  cluster1/baremetalmachines: dial tcp 127.0.0.1:34483: connect: connection refused"

  Create Kind Cluster "msg"="apply run failed" "error"="unable to recognize \"/tmp/kout088683152\": no matches for kind \"NetworkLogging\" in version \"networking.gke.io/v1alpha1\""
  Create Kind Cluster "msg"="apply run failed" "error"="unable to recognize \"/tmp/kout869681888\": no matches for kind \"Provider\" in version \"clusterctl.cluster.x-k8s.io/v1alpha3\""

Se a chave da conta de serviço do Google Cloud tiver expirado, você vai receber as seguintes mensagens de erro do bmctl:

Error validating cluster config: 3 errors occurred:
        * GKEConnect check failed: Get https://gkehub.googleapis.com/v1beta1/projects/project/locations/global/memberships/admin: oauth2: cannot fetch token: 400 Bad Request
Response: {"error":"invalid_grant","error_description":"Invalid JWT Signature."}
        * ClusterOperations check failed: Post https://cloudresourcemanager.googleapis.com/v1/projects/project:testIamPermissions?alt=json&prettyPrint=false: oauth2: cannot fetch token: 400 Bad Request
Response: {"error":"invalid_grant","error_description":"Invalid JWT Signature."}
        * GCR pull permission for bucket: artifacts.anthos-baremetal-release.appspot.com failed: Get https://storage.googleapis.com/storage/v1/b/artifacts.anthos-baremetal-release.appspot.com/iam/testPermissions?alt=json&permissions=storage.objects.get&permissions=storage.objects.list&prettyPrint=false: oauth2: cannot fetch token: 400 Bad Request
Response: {"error":"invalid_grant","error_description":"Invalid JWT Signature."}

Será necessário gerar uma nova chave da conta de serviço.

Usar o cluster de inicialização para depurar problemas

Quando o Google Distributed Cloud cria clusters autogerenciados (administradores, híbridos ou independentes), ele implanta um cluster Kubernetes no Docker (tipo) para hospedar temporariamente os controladores do Kubernetes necessários para criar clusters. Esse cluster transitório é chamado de cluster de inicialização. Os clusters de usuário são criados e atualizados pelo cluster de administrador ou híbrido de gerenciamento sem o uso de um cluster de inicialização.

Se um cluster de tipo já existir em sua implantação ao tentar instalar, o Google Distributed Cloud excluirá o cluster de tipo existente. A exclusão só ocorre depois que a instalação ou o upgrade são bem-sucedidos. Para preservar o cluster de tipo atual mesmo após o sucesso, use a sinalização --keep-bootstrap-cluster de bmctl.

O Google Distributed Cloud cria um arquivo de configuração para o cluster de inicialização em WORKSPACE_DIR/.kindkubeconfig. Só é possível se conectar ao cluster de inicialização durante a criação e o upgrade dele.

O cluster de inicialização precisa acessar um repositório do Docker para extrair imagens. O registro é o padrão para o Artifact Registry, a menos que você esteja usando um registro particular. Durante a criação do cluster, bmctl cria os seguintes arquivos:

bmctl-workspace/config.json: contém as credenciais da conta de serviço Google Cloud para o acesso ao registro. As credenciais são recebidas do campo gcrKeyPath no arquivo de configuração do cluster.
bmctl-workspace/config.toml: contém a configuração do containerd no cluster de tipo.

Analisar os registros do cluster de inicialização

Para depurar o cluster de inicialização, siga estas etapas:

Conecte-se ao cluster de inicialização durante a criação e o upgrade do cluster.
Receba os registros do cluster de inicialização.

É possível encontrar os registros na máquina que você usa para executar bmctl nas seguintes pastas:

bmctl-workspace/CLUSTER_NAME/log/create-cluster-TIMESTAMP/bootstrap-cluster/
bmctl-workspace/CLUSTER_NAME/log/upgrade-cluster-TIMESTAMP/bootstrap-cluster/

Substitua CLUSTER_NAME e TIMESTAMP pelo nome do cluster e o horário do sistema correspondente.

Para acessar os registros do cluster de inicialização diretamente, execute o seguinte comando durante a criação e o upgrade do cluster:

docker exec -it bmctl-control-plane bash

O comando abre um terminal dentro do contêiner do plano de controle bmctl que é executado no cluster de inicialização.

Para inspecionar os registros kubelet e containerd, use os seguintes comandos e procure erros ou avisos na saída:

journalctl -u kubelet
journalctl -u containerd

Ativar o registro de depuração do containerd

Se os registros padrão do containerd não fornecerem informações suficientes para a solução de problemas, aumente o nível de geração de registros. Aumentar o nível de geração de registros geralmente é necessário ao diagnosticar problemas complexos, como problemas com um espelho de registro ou erros ImagePullBackOff.

Para aumentar o nível de geração de registros, faça o seguinte:

Ative a geração de registros de depuração:
1. Abra o arquivo de configuração do containerd (/etc/containerd/config.toml) usando seu editor de texto preferido.
2. No arquivo, encontre a seção [debug] e mude o valor de level de "" para "debug".
3. Salve o arquivo e saia do editor de texto.
4. Verifique se você atualizou o arquivo de configuração com sucesso:
```
cat /etc/containerd/config.toml | grep debug
```
  A saída vai ser a seguinte:
```
[debug]
  level = "debug"
    shim_debug = false
```
5. Para aplicar a mudança no nível de geração de registros, reinicie o containerd:
```
sudo systemctl restart containerd
```
Para gerar novas entradas de registro, tente extrair uma imagem que não existe ou não é usada por nenhum nó ou cluster. Exemplo:
```
# This command fails because the image doesn't exist
crictl pull us-west1-docker.pkg.dev/gdc-project/samples/non-existent-image:latest
```
Isso força o containerd a realizar uma ação e gerar registros detalhados.
Aguarde a extração ou falha da imagem e colete os registros do containerd em um arquivo chamado containerd_log.txt:
```
journalctl -u containerd --no-pager --since TIME_PERIOD > containerd_log.txt
```
Substitua TIME_PERIOD por um valor que especifique o horário de início dos registros. Coloque entre aspas duplas os valores que contêm espaços. Por exemplo, "2 hours ago".
Quando terminar a solução de problemas, reverta o nível de registro para o padrão. Deixar o registro de depuração ativado pode inundar os registros do sistema, afetar o desempenho e expor informações sensíveis.
1. Abra o arquivo /etc/containerd/config.toml e mude o valor de level de volta para "", o nível de geração de registros padrão.
2. Verifique se você atualizou a configuração com sucesso:
```
cat /etc/containerd/config.toml | grep level
```
  A saída vai ser a seguinte:
```
level = ""
```
3. Para aplicar a mudança, reinicie o containerd:
```
sudo systemctl restart containerd
```
  Seu sistema voltou à configuração de geração de registros padrão.

Problemas de upgrade de cluster

Ao fazer upgrade dos clusters do Google Distributed Cloud, é possível monitorar o progresso e verificar o status dos clusters e nós.

Se você tiver problemas durante um upgrade, tente determinar em que estágio a falha ocorre. Para saber mais sobre o que acontece com um cluster durante o processo de upgrade, consulte Ciclo de vida e etapas dos upgrades de cluster.
Para saber mais sobre o impacto de um problema durante upgrades de cluster, consulte Entenda o impacto das falhas no Google Distributed Cloud.

As orientações a seguir podem ajudar a determinar se o upgrade continua normalmente ou se há um problema.

Monitorar o progresso do upgrade

Use o comando kubectl describe cluster para ver o status de um cluster durante o processo de upgrade:

kubectl describe cluster CLUSTER_NAME \
    --namespace CLUSTER_NAMESPACE \
    --kubeconfig ADMIN_KUBECONFIG

Substitua os seguintes valores:

CLUSTER_NAME: o nome do cluster.
CLUSTER_NAMESPACE: o namespace do cluster.
ADMIN_KUBECONFIG: o arquivo kubeconfig do administrador.
- Por padrão, os clusters de administrador, híbrido e autônomo usam um upgrade no local. Se você usar a sinalização --use-bootstrap=true com o comando bmctl upgrade, a operação de upgrade usará um cluster de inicialização. Para monitorar o progresso do upgrade quando um cluster de inicialização for usado, especifique o caminho para o arquivo kubeconfig do cluster de inicialização, .kindkubeconfig. Esse arquivo está localizado no diretório do espaço de trabalho.

Observe a seção Status da saída, que mostra uma agregação do status de upgrade do cluster. Se o cluster relatar um erro, use as seções a seguir para solucionar o problema.

Verificar se os nós estão prontos

Use o comando kubectl get nodes para ver o status dos nós em um cluster durante o processo de upgrade:

kubectl get nodes --kubeconfig KUBECONFIG

Para verificar se um nó concluiu o processo de upgrade, observe as colunas VERSION e AGE na resposta do comando. O VERSION é a versão do Kubernetes do cluster. Para conferir a versão do Kubernetes de uma determinada versão do Google Distributed Cloud, consulte Controle de versões.

Se o nó mostrar NOT READY, tente o conectar e verificar o status do kubelet:

systemctl status kubelet

Você também pode analisar os registros do kubelet:

journalctl -u kubelet

Analise a saída do status do kubelet e os registros das mensagens que indicam por que o nó tem um problema.

Verificar qual nó está sendo atualizado

Para verificar qual nó do cluster está em processo de upgrade, use o comando kubectl get baremetalmachines:

kubectl get baremetalmachines --namespace CLUSTER_NAMESPACE \
    --kubeconfig ADMIN_KUBECONFIG

Substitua os seguintes valores:

CLUSTER_NAMESPACE: o namespace do cluster.
ADMIN_KUBECONFIG: o arquivo kubeconfig do administrador.
- Se um cluster de inicialização for usado para um upgrade híbrido, de administrador ou separado, especifique o arquivo kubeconfig do cluster de inicialização (bmctl-workspace/.kindkubeconfig).

O exemplo de saída a seguir mostra que o nó que está sendo atualizado tem um ABM VERSION diferente de DESIRED ABM VERSION:

NAME         CLUSTER    READY   INSTANCEID               MACHINE      ABM VERSION   DESIRED ABM VERSION
10.200.0.2   cluster1   true    baremetal://10.200.0.2   10.200.0.2   1.13.0        1.14.0
10.200.0.3   cluster1   true    baremetal://10.200.0.3   10.200.0.3   1.13.0        1.13.0

Verificar quais nós estão no processo de drenagem

Durante o processo de upgrade, os nós são esvaziados dos pods, e a programação fica desativada até que o upgrade do nó seja concluído. Para saber quais nós estão sendo drenados, use o comando kubectl get nodes:

kubectl get nodes --kubeconfig USER_CLUSTER_KUBECONFIG | grep "SchedulingDisabled"

Substitua USER_CLUSTER_KUBECONFIG pelo caminho para o arquivo Kubeconfig do cluster de usuário.

A coluna STATUS é filtrada usando grep para mostrar apenas os nós que informam SchedulingDisabled. Esse status indica que os nós estão sendo drenados.

Também é possível verificar o status do nó do cluster de administrador:

kubectl get baremetalmachines -n CLUSTER_NAMESPACE \
  --kubeconfig ADMIN_KUBECONFIG

Substitua os seguintes valores:

CLUSTER_NAMESPACE: o namespace do cluster.
ADMIN_KUBECONFIG: o arquivo kubeconfig do administrador.
- Se um cluster de inicialização for usado para um upgrade híbrido, de administrador ou separado, especifique o arquivo kubeconfig do cluster de inicialização (bmctl-workspace/.kindkubeconfig).

O nó que está sendo drenado mostra o status na coluna MAINTENANCE.

Verifique por que um nó está no status de drenagem há muito tempo

Use um dos métodos na seção anterior para identificar o nó que está sendo drenado usando o comando kubectl get nodes. Use o comando kubectl get pods e filtre o nome desse nó para ver mais detalhes:

kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=NODE_NAME

Substitua NODE_NAME pelo nome do nó que está sendo drenado. A saída retorna uma lista de pods que estão travados ou lentos para drenagem. O upgrade prossegue, mesmo com pods travados, quando o processo de drenagem em um nó leva mais de 20 minutos.

A partir da versão 1.29, o processo de drenagem de nós usa a API Eviction, que respeita PodDisruptionBudgets (PDBs).

As seguintes configurações de PDB podem causar problemas de drenagem de nós:

Pods gerenciados por vários PDBs
Configurações estáticas do PDB, como o seguinte:
- maxUnavailable == 0
- minUnavailable >= total de réplicas
A contagem total de réplicas é difícil de determinar no recurso PDB, por ser definido em um recurso de nível superior, como Deployment, ReplicaSet ou StatefulSet. Os PDBs fazem correspondência com pods com base no seletor apenas na configuração. Uma boa abordagem para diagnosticar se a configuração de um PDB estático está causando problemas é analisar se pdb.Status.ExpectPods <= pdb.Status.DesiredHealthy primeiro e analisar se uma das configurações estáticas mencionadas permite que isso aconteça.

Violações do ambiente de execução, como o valor calculado de DisruptionsAllowed para um recurso PDB sendo 0, também pode bloquear a drenagem de nós. Se você tiver objetivos PodDisruptionBudget configurados que não podem permitir outras interrupções, o upgrade dos nós poderá falhar no upgrade para a versão do plano de controle após várias tentativas. Para evitar essa falha, recomendamos que você escalone verticalmente Deployment ou HorizontalPodAutoscaler para permitir que o nó seja drenado enquanto respeita a configuração PodDisruptionBudget.

Para conferir todos os objetos PodDisruptionBudget que não permitem interrupções, use o seguinte comando:

kubectl get poddisruptionbudget --all-namespaces \
    -o jsonpath='{range .items[?(@.status.disruptionsAllowed==0)]}{.metadata.name}/{.metadata.namespace}{"\n"}{end}'

Verificar por que os pods não estão íntegros

Os upgrades poderão falhar se um pod contiver endereços IP do plano de controle upgrade-first-node ou upgrade-node. Esse comportamento geralmente ocorre porque os pods estáticos não estão íntegros.

Verifique os pods estáticos com o comando crictl ps -a e procure os pods do Kubernetes ou etcd com falha. Se você tiver pods com falha, revise os registros dos pods para ver por que eles estão falhando.

Veja algumas possibilidades de comportamento de loop de falhas:
- As permissões ou o proprietário de arquivos montados em pods estáticos não estão corretos.
- A conectividade com o endereço IP virtual não funciona.
- Problemas com etcd
Se o comando crictl ps não funcionar ou não retornar nada, verifique o status de kubelet e do containerd. Use os comandos systemctl status SERVICE e journalctl -u SERVICE para analisar os registros.

A seguir

Se precisar de mais ajuda, entre em contato com o Cloud Customer Care. Consulte também Receber suporte para mais informações sobre recursos de suporte, incluindo:

Requisitos para abrir um caso de suporte.
Ferramentas para ajudar na solução de problemas, como configuração do ambiente, registros e métricas.
Componentes compatíveis.