Resolva problemas do GKE


Esta página apresenta páginas de resolução de problemas para problemas comuns que pode encontrar quando usa o Google Kubernetes Engine (GKE). Esta página destina-se a administradores e arquitetos, especialistas em segurança, especialistas em redes ou especialistas em armazenamento que resolvem problemas de configurações do GKE. Para saber mais sobre as funções do GKE, consulte o artigo Funções e tarefas comuns do utilizador do GKE.

Se não tem experiência na resolução de problemas no GKE ou quer uma vista geral de alto nível das ferramentas e técnicas fundamentais, comece com a Introdução à resolução de problemas.

Para diagnosticar e resolver problemas que encontrar em várias fases do trabalho com a sua infraestrutura do GKE, consulte as seguintes secções:

Esta página também oferece acesso a tópicos de resolução de problemas mais gerais:

Para resolver problemas de rede do GKE, consulte o artigo Resolva problemas de rede do GKE na documentação de rede do GKE.

Introdução à resolução de problemas

Tópico Descrição
Introdução à resolução de problemas do GKE Comece a resolver problemas do GKE aprendendo sobre o processo geral e os conceitos fundamentais.
Reveja o estado de funcionamento do serviço e os incidentes Saiba como verificar o estado de funcionamento do GKE e dos Google Cloud serviços relacionados para excluir problemas da plataforma.
Avalie o estado do cluster e da carga de trabalho na Google Cloud consola Saiba como usar a Google Cloud consola para investigar e resolver problemas do GKE.
Investigue o estado de um cluster com kubectl Explore comandos e técnicas comuns para diagnosticar problemas nos seus clusters e cargas de trabalho.kubectl
Realize análises históricas com o Cloud Logging Compreenda como usar eficazmente o Cloud Logging para encontrar as causas principais de problemas no GKE.
Faça uma monitorização proativa com o Cloud Monitoring Utilize os painéis de controlo e as métricas do Cloud Monitoring para identificar, diagnosticar e resolver problemas do GKE.
Acelere o diagnóstico com o Gemini Cloud Assist Descubra como o Gemini pode ajudar no diagnóstico e na resolução de problemas do GKE.
Consolidação: exemplo de cenário de resolução de problemas Siga um exemplo passo a passo de resolução de problemas de um cenário comum no GKE.

Configuração do cluster

Tópico Descrição
Criação de clusters Resolva problemas com a criação de clusters.
Clusters do Autopilot Diagnosticar e resolver problemas de clusters do GKE Autopilot, incluindo a criação de clusters, a eliminação de espaços de nomes, o dimensionamento e os problemas de cargas de trabalho.
Ferramenta de linhas de comando Kubectl Resolva problemas da ferramenta de linha de comandos kubectl no GKE, incluindo problemas de autenticação e autorização. Esta página também inclui sugestões sobre como resolver problemas do proxy Konnectivity para verificar se está a fazer com que os comandos kubectl logs, attach, exec ou port-forward deixem de responder.
Pools de nós padrão Resolva problemas com conjuntos de nós padrão do GKE, incluindo problemas com a criação de conjuntos de nós, o aprovisionamento dentro do possível, metadados de instâncias danificados e a migração de cargas de trabalho para novos conjuntos de nós.
Registo de nós Resolva problemas que ocorrem quando adiciona nós ao seu cluster GKE Standard, como falhas de registo de nós e pré-requisitos em falta para o registo de nós bem-sucedido.
Tempo de execução do contentor Resolva problemas de tempos de execução de contentores no GKE, incluindo: problemas com o containerd e o dockershim, e registos privados.

Armazenamento

Tópico Descrição
Armazenamento Resolva problemas de armazenamento, incluindo problemas com discos persistentes regionais, desempenho do disco e expansão do volume.

Segurança do cluster

Tópico Descrição
Autenticação Resolva problemas de autenticação no GKE, incluindo problemas com o RBAC, a federação de identidades da carga de trabalho para o GKE e o servidor de metadados do GKE.
Contas de serviço Resolva problemas de contas de serviço, incluindo a reposição da conta de serviço predefinida e a ativação da conta de serviço predefinida do Compute Engine.
Segredos da camada de aplicação Resolva problemas que podem ocorrer ao configurar a encriptação de segredos da camada de aplicação, incluindo atualizações com falhas e erros em que não consegue usar uma chave do Cloud KMS ou em que a versão da chave do Cloud KMS foi destruída.

O certificado de autoridade raiz do cluster expira em breve

Tópico Descrição
A autoridade de certificação (AC) de raiz está a expirar Se a autoridade de certificação (CA) raiz do seu cluster expirar em breve, saiba como fazer uma rotação de credenciais para evitar a interrupção das operações normais do cluster.

Cargas de trabalho

Tópico Descrição
Cargas de trabalho implementadas Resolva problemas de erros para cargas de trabalho em execução num cluster do GKE, incluindo PodUnschedulable. Leia a secção PodUnschedulable para obter sugestões sobre erros como MatchNodeSelector e Does not have minimum availability.
Imagens extraídas Resolva problemas de obtenção de imagens. Saiba o que causa estados como ImagePullBackOff e ErrImagePull e como resolver estes estados corrigindo problemas comuns, como a autenticação e a conetividade de rede.
Eventos CrashLoopBackOff Resolva problemas de eventos CrashLoopBackOff no GKE. Diagnosticar problemas como esgotamento de recursos, configurações incorretas da app e falhas de sondagem de atividade.
Eventos OOM Resolva problemas de eventos de falta de memória (OOM) do Kubernetes. Identificar causas, distinguir tipos de eventos e aplicar soluções eficazes para eliminações por falta de memória (OOM) ao nível do contentor e do nó.
Cargas de trabalho Arm Resolva problemas com cargas de trabalho Arm, incluindo falhas de Pods em nós Arm.
TPUs Resolva problemas com as TPUs, incluindo problemas com a quota, o aprovisionamento automático de nós, a configuração da carga de trabalho e a programação.
GPUs Resolva problemas de GPUs, incluindo problemas com a instalação de controladores de GPU, erros de plug-ins de dispositivos e imagens de contentores.

Gestão de clusters

Tópico Descrição
Atualizações de clusters Resolva problemas de atualização de nós e clusters do GKE, incluindo atualizações longas ou incompletas, atualizações automáticas inesperadas, falhas e problemas pós-atualização.
Webhooks Compreenda como resolver problemas e garantir a estabilidade do plano de controlo do cluster quando usar webhooks de admissão.
Espaço de nomes bloqueado no estado Terminating Resolva problemas com espaços de nomes bloqueados no estado Terminating identificando e removendo os componentes não íntegros que estão a bloquear a eliminação.
Operações simultâneas Resolva problemas de operações simultâneas aprendendo a identificar estes erros e resolvê-los aguardando a conclusão das operações.

Monitorização

Tópico Descrição
Métricas do sistema Resolva problemas com métricas do sistema que não aparecem no Cloud Monitoring.
Painéis de controlo de monitorização Resolva problemas com os painéis de controlo de monitorização, incluindo problemas com a ativação da monitorização, recursos do Kubernetes em falta e autorizações.
Registo Resolva problemas de registo, incluindo problemas com a ativação do registo, registos em falta e quotas.

Erros 4xx

Tópico Descrição
Erros 4xx Resolva alguns dos erros 400, 401, 403 e 404 que pode encontrar quando usa o GKE. Esta página também inclui informações sobre como resolver problemas de autorizações de edição em falta em erros da conta.

Problemas conhecidos

Tópico Descrição
Problemas conhecidos Identifique e resolva problemas conhecidos que possam afetar a sua utilização do GKE.

O que se segue?