Esta página foi traduzida pela API Cloud Translation.

Resolver problemas do GKE

Autopilot Standard

Nesta página, listamos páginas de solução de problemas comuns que você pode encontrar ao usar o Google Kubernetes Engine (GKE). Esta página é destinada a administradores e arquitetos, especialistas em segurança, especialistas Rede ou especialistas em armazenamento que resolvem problemas de configurações do GKE. Para saber mais sobre as funções do GKE, consulte Tarefas e funções de usuário comuns do GKE.

Se você não tem experiência em solução de problemas no GKE ou quer uma visão geral de alto nível das ferramentas e técnicas fundamentais, comece com Introdução à solução de problemas.

Para diagnosticar e resolver problemas encontrados em várias etapas do trabalho com sua infraestrutura do GKE, consulte as seções a seguir:

Configuração do cluster
Escalonamento automático
Armazenamento
Segurança do cluster
Cargas de trabalho
Gerenciamento de clusters
Monitoring

Esta página também dá acesso a tópicos mais gerais de solução de problemas:

Erros 4xx
Problemas conhecidos

Para resolver problemas de rede do GKE, consulte Resolver problemas de rede do GKE na documentação de rede do GKE.

Introdução à solução de problemas

Tópico	Descrição
Introdução à solução de problemas do GKE	Comece a resolver problemas do GKE aprendendo sobre o processo geral e os conceitos fundamentais.
Analisar a integridade e os incidentes do serviço	Saiba como verificar a integridade do GKE e dos serviços Google Cloud relacionados para excluir problemas da plataforma.
Avaliar a integridade do cluster e da carga de trabalho no console do Google Cloud	Saiba como usar o console Google Cloud para investigar e resolver problemas do GKE.
Investigar o estado de um cluster com `kubectl`	Conheça os comandos e técnicas comuns do `kubectl` para diagnosticar problemas nos clusters e cargas de trabalho.
Fazer análises históricas com o Cloud Logging	Entenda como usar o Cloud Logging de forma eficaz para encontrar as causas principais de problemas no GKE.
Fazer monitoramento proativo com o Cloud Monitoring	Use painéis e métricas do Cloud Monitoring para identificar, diagnosticar e resolver problemas do GKE.
Acelere o diagnóstico com o Gemini Cloud Assist	Descubra como o Gemini pode ajudar a diagnosticar e resolver problemas do GKE.
Como fazer tudo funcionar em conjunto: exemplo de cenário de solução de problemas	Siga um exemplo detalhado de como resolver um cenário comum no GKE.

Configuração do cluster

Tópico	Descrição
Criação de cluster	Resolver problemas com a criação de clusters.
Clusters do Autopilot	Diagnosticar e resolver problemas de clusters do GKE Autopilot, incluindo criação de clusters, exclusão de namespaces, escalonamento e problemas de carga de trabalho.
Ferramenta de linha de comando kubectl	Resolver problemas da ferramenta de linha de comando `kubectl` no GKE, incluindo problemas de autenticação e autorização. Esta página também inclui dicas sobre como resolver problemas do proxy Konnectivity para verificar se ele está fazendo com que os comandos `kubectl logs`, `attach`, `exec` ou `port-forward` parem de responder.
Pools de nós padrão	Resolver problemas em pools de nós padrão do GKE, incluindo problemas com a criação de pool de nós, provisionamento de melhor esforço, metadados de instância corrompidos e migração de cargas de trabalho para novos pools de nós.
Registro de nós	Resolver problemas que ocorrem ao adicionar nós ao cluster GKE Standard, como falhas no registro de nós e pré-requisitos ausentes para o registro bem-sucedido de nós.
Ambiente de execução do contêiner	Resolver problemas de ambientes de execução de contêineres no GKE, incluindo problemas com `containerd` e `dockershim`, e registros particulares.

Escalonamento automático

Tópico	Descrição
O escalonador automático de clusters não está reduzindo a escala vertical	Diagnosticar e resolver motivos comuns para o cluster não remover nós subutilizados. Saiba como verificar problemas como `PodDisruptionBudgets` restritivos, pods com armazenamento local ou anotações específicas (por exemplo, `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) que impedem a remoção de nós.
O escalonador automático de clusters não está escalonando verticalmente	Saiba por que o escalonador automático de cluster não está adicionando novos nós para atender à demanda. Verifique se há pods não programáveis, se você não atingiu os limites de tamanho do cluster ou do pool de nós e identifique possíveis problemas de cota de recursos ou de disponibilidade regional de VMs.
Escalonamento automático de pod horizontal	Resolva problemas com o escalonador automático horizontal de pods que não está escalonando as réplicas de pod do seu aplicativo. Resolva problemas comuns, como objetos HorizontalPodAutoscaler mal configurados ou problemas com o pipeline de métricas.

Armazenamento

Tópico	Descrição
Armazenamento	Solucione problemas de armazenamento, incluindo questões com discos permanentes regionais, desempenho do disco e expansão de volume.

Segurança do cluster

Tópico	Descrição
Authentication	Resolva problemas de autenticação no GKE, incluindo problemas com RBAC, federação de identidade da carga de trabalho para GKE e o servidor de metadados do GKE.
Contas de serviço	Resolver problemas de contas de serviço, incluindo a restauração da conta de serviço padrão e a ativação da conta de serviço padrão do Compute Engine.
Secrets da camada de aplicativos	Resolva problemas que podem ocorrer ao configurar a criptografia de secrets da camada de aplicativo, incluindo atualizações com falha e erros em que não é possível usar uma chave do Cloud KMS ou em que a versão da chave do Cloud KMS foi destruída.

A autoridade de certificação raiz do cluster vai expirar em breve

Tópico	Descrição
A autoridade de certificação (CA) raiz vai expirar	Se a autoridade certificadora (CA) raiz do cluster expirar em breve, saiba como fazer uma rotação de credenciais para evitar que as operações normais do cluster sejam interrompidas.

Cargas de trabalho

Tópico	Descrição
Cargas de trabalho implantadas	Resolver problemas de erros em cargas de trabalho executadas em um cluster do GKE, incluindo `PodUnschedulable`. Leia a seção "PodUnschedulable" para receber orientações sobre erros como `MatchNodeSelector` e `Does not have minimum availability`.
Extrações de imagens	Resolva problemas de extração de imagens. Saiba o que causa status como `ImagePullBackOff` e `ErrImagePull` e como resolver esses status corrigindo problemas comuns, como autenticação e conectividade de rede.
Eventos CrashLoopBackOff	Solucione problemas de eventos `CrashLoopBackOff` no GKE. Diagnosticar problemas como esgotamento de recursos, configurações incorretas de apps e falhas na sondagem de atividade.
Eventos de falta de memória	Resolver problemas com eventos de memória insuficiente (OOM) do Kubernetes. Identificar causas, distinguir tipos de eventos e aplicar soluções eficazes para encerramentos por falta de memória (OOM) no nível do contêiner e do nó.
Cargas de trabalho do Arm	Resolver problemas com cargas de trabalho do Arm, incluindo falhas nos pods em nós do Arm.
TPUs	Resolver problemas com TPUs, incluindo problemas com cota, provisionamento automático de nós, configuração e programação de carga de trabalho.
GPUs	Resolver problemas de GPUs, incluindo problemas com a instalação de drivers de GPU, erros de plug-in de dispositivo e imagens de contêiner.

Gerenciamento de clusters

Tópico	Descrição
Upgrades de cluster	Resolva problemas de upgrade de cluster e nó do GKE, incluindo upgrades longos ou incompletos, upgrades automáticos inesperados, falhas e problemas pós-upgrade.
Webhooks	Entenda como solucionar problemas e garantir a estabilidade do plano de controle do cluster ao usar webhooks de admissão.
Namespace travado no estado `Terminating`	Para resolver problemas com namespaces travados no estado `Terminating`, identifique e remova os componentes não íntegros que estão impedindo a exclusão.
Operações simultâneas	Saiba como identificar e resolver esses erros aguardando a conclusão das operações.

Monitoramento

Tópico	Descrição
Métricas do sistema	Resolva problemas com métricas do sistema que não aparecem no Cloud Monitoring.
Painéis do Monitoring	Resolva problemas em painéis de monitoramento, incluindo problemas com a ativação do monitoramento, recursos do Kubernetes ausentes e permissões.
Logging	Resolva problemas de geração de registros, incluindo problemas com a ativação, registros ausentes e cotas.

Erros 4xx

Tópico	Descrição
Erros 4xx	Solucione alguns dos erros 400, 401, 403 e 404 que você pode encontrar ao usar o GKE. Esta página também inclui informações sobre como resolver erros de permissões de edição ausentes na conta.

Problemas conhecidos

Tópico	Descrição
Problemas conhecidos	Identifique e resolva problemas conhecidos que possam afetar seu uso do GKE.

A seguir

Se você não encontrar uma solução para seu problema na documentação, consulte Receber suporte para mais ajuda, incluindo conselhos sobre os seguintes tópicos:
- Abrir um caso de suporte entrando em contato com o Cloud Customer Care.
- Receber suporte da comunidade fazendo perguntas no StackOverflow e usando a tag google-kubernetes-engine para pesquisar problemas semelhantes. Você também pode participar do canal do Slack #kubernetes-engine para receber mais suporte da comunidade.
- Abrir bugs ou solicitações de recursos usando o Issue Tracker público.