Quando você precisa verificar rapidamente a integridade dos clusters e cargas de trabalho do Google Kubernetes Engine (GKE), pode ser difícil saber por onde começar. Visualizar a integridade dos clusters e das cargas de trabalho no console do Google Cloud ajuda a avaliar rapidamente o estado do ambiente. A integridade do cluster se refere à integridade da infraestrutura do GKE, como nós e rede, enquanto a integridade da carga de trabalho se refere ao status e ao desempenho dos seus apps em execução no cluster.
Use esta página para saber como navegar pelas páginas de clusters e cargas de trabalho do Kubernetes para ter uma visão geral, identificar possíveis problemas (como nós sob pressão de recursos ou pods com falha) e detalhar recursos específicos para mais detalhes.
Essas informações são importantes para administradores e operadores da plataforma responsáveis por manter a estabilidade do cluster e que precisam realizar avaliações rápidas de integridade e verificações de recursos. Também é essencial para desenvolvedores de aplicativos que precisam entender o status de tempo de execução das implantações e investigar falhas. Para mais informações sobre os papéis comuns e as tarefas de exemplo referenciados no conteúdo do Google Cloud , consulte Funções e tarefas de usuário comuns do GKE.
Para fornecer uma imagem completa da integridade do seu app, o console Google Cloud também oferece acesso a ferramentas avançadas de geração de registros e monitoramento, permitindo que você investigue a causa raiz de falhas anteriores e evite proativamente as futuras. Para mais informações sobre essas ferramentas, consulte Fazer análises históricas com o Cloud Logging e Realizar monitoramento proativo com o Cloud Monitoring.
Encontrar problemas de cluster
A página Clusters do Kubernetes oferece uma visão geral da integridade dos seus clusters. Para identificar problemas com qualquer um dos seus clusters, comece nesta página.
Para começar, no console Google Cloud , acesse a página Clusters do Kubernetes.
Confira alguns exemplos de como usar essa página para resolver problemas:
- Para receber conselhos sobre como melhorar a integridade do cluster, a estratégia de upgrade e a otimização de custos, clique em Ver recomendações.
- Para identificar clusters não íntegros, consulte a coluna Status. Qualquer cluster sem uma marca de seleção verde precisa de atenção.
- Para conferir possíveis problemas, analise a coluna Notificações. Clique em qualquer mensagem de notificação para mais informações.
Investigar um cluster específico
Depois de descobrir um problema com um cluster, acesse a página Detalhes para informações detalhadas que ajudam a resolver problemas e entender a configuração.
Para acessar a página Detalhes de um cluster, faça o seguinte:
Acesse a página Clusters do Kubernetes.
Analise a coluna Nome e clique no nome do cluster que você quer investigar.
Confira alguns exemplos de como usar a página Detalhes do cluster para resolver problemas:
Para verificações de integridade gerais, tente as seguintes opções:
Para acessar os painéis no nível do cluster, acesse a guia Observabilidade. Por padrão, o GKE ativa o Cloud Monitoring quando você cria um cluster. Quando o Cloud Monitoring está ativado, o GKE configura automaticamente os painéis nesta página. Confira algumas visualizações que podem ser mais úteis para resolver problemas:
- Visão geral: confira um resumo geral da integridade, da utilização de recursos e dos principais eventos do cluster. Esse painel ajuda você a avaliar rapidamente o estado geral do cluster e identificar possíveis problemas.
- Métricas de tráfego: confira as métricas de rede por nós para ter insights sobre o tráfego entre suas cargas de trabalho do Kubernetes.
- Estado da carga de trabalho: confira o estado de implantações, pods e contêineres. Identifique instâncias com falha ou não íntegras e detecte restrições de recursos.
Plano de controle: confira a integridade e o desempenho do plano de controle. Com ele, é possível monitorar métricas importantes de componentes como
kube-apiserver
eetcd
, identificar gargalos de desempenho e detectar falhas de componentes.
Para conferir os erros recentes do app, acesse a guia Erros do app. As informações nessa guia ajudam a priorizar e resolver erros mostrando o número de ocorrências, quando um erro apareceu pela primeira vez e quando ocorreu pela última vez.
Para investigar melhor um erro, clique na mensagem para ver um relatório detalhado, incluindo links para registros relevantes.
Se você estiver resolvendo problemas após um upgrade ou uma mudança recente, confira a seção Noções básicas do cluster na guia Detalhes do cluster. Confirme se a versão listada no campo Versão é a esperada. Para mais investigações, clique em Mostrar histórico de upgrades na seção Upgrades.
Se você estiver usando um cluster padrão e seus pods estiverem travados em um estado
Pending
ou suspeitar que os nós estão sobrecarregados, verifique a guia Nós. A guia Nós não está disponível para clusters do Autopilot porque o GKE gerencia os nós para você.- Na seção Pools de nós, verifique se o escalonamento automático está configurado corretamente e se o tipo de máquina é adequado para suas cargas de trabalho.
- Na seção Nós, procure qualquer nó com um status diferente de
Ready
. Um statusNotReady
indica um problema com o próprio nó, como pressão de recursos ou um problema com o kubelet (o kubelet é o agente que é executado em cada nó para gerenciar contêineres).
Encontrar problemas com a carga de trabalho
Quando você suspeitar que há um problema com um app específico, como uma implantação com falha, acesse a página Cargas de trabalho no console Google Cloud . Essa página oferece uma visão centralizada de todos os apps executados nos clusters.
Para começar, no console Google Cloud , acesse a página Cargas de trabalho.
Confira alguns exemplos de como usar essa página para resolver problemas:
- Para identificar cargas de trabalho não íntegras, consulte a coluna Status. Qualquer carga de trabalho sem uma marca de seleção verde precisa de atenção.
- Se um app não estiver respondendo, consulte a coluna Pods. Por exemplo, um status como 1/3 significa que apenas uma das três réplicas do app está em execução, indicando um problema.
Investigar uma carga de trabalho específica
Depois de identificar uma carga de trabalho problemática na visão geral, acesse a página Detalhes da carga de trabalho para isolar a causa raiz.
Para acessar a página Detalhes de uma carga de trabalho, faça o seguinte:
Acesse a página Cargas de trabalho.
Clique na coluna Nome e clique no nome da carga de trabalho que você quer investigar.
Confira alguns exemplos de como usar a página Detalhes da carga de trabalho para resolver problemas:
Para verificar a configuração da carga de trabalho, use as guias Visão geral e Detalhes. Use essas informações para verificar eventos, como se a tag de imagem de contêiner correta foi implantada ou se os limites e solicitações de recursos da carga de trabalho estão corretos.
Para encontrar o nome de um pod específico com falha, acesse a seção Pods gerenciados. Talvez você precise dessas informações para comandos
kubectl
. Esta seção lista todos os pods controlados pela carga de trabalho, junto com os status deles.Para conferir um histórico de mudanças recentes em uma carga de trabalho, acesse a guia Histórico de revisões. Se você notar problemas de desempenho após uma nova implantação, use esta seção para identificar qual revisão está ativa. Em seguida, compare as configurações da revisão atual com as anteriores para identificar a origem do problema. Se essa guia não estiver visível, a carga de trabalho é de um tipo que não usa revisões ou ainda não recebeu atualizações.
Se uma implantação parece ter falhado, acesse a guia Eventos. Essa página geralmente é a fonte de informações mais valiosa porque mostra eventos no nível do Kubernetes.
Para conferir os registros do app, clique na guia Registros. Esta página ajuda você a entender o que está acontecendo dentro do cluster. Procure aqui mensagens de erro e rastreamentos de pilha que podem ajudar a diagnosticar problemas.
Para confirmar exatamente o que foi implantado, acesse a guia YAML. Esta página mostra o manifesto YAML ativo da carga de trabalho no cluster. Essas informações são úteis para encontrar discrepâncias nos manifestos controlados por origem. Se você estiver visualizando um manifesto YAML de um único pod, essa guia também vai mostrar o status do pod, que fornece insights sobre falhas no nível do pod.
A seguir
Leia Investigar o estado de um cluster com
kubectl
(a próxima página desta série).Confira esses conceitos aplicados no exemplo de cenário de solução de problemas.
Para receber conselhos sobre como resolver problemas específicos, consulte os guias de solução de problemas do GKE.
Se você não encontrar uma solução para seu problema na documentação, consulte Receber suporte para mais ajuda, incluindo conselhos sobre os seguintes tópicos:
- Abrir um caso de suporte entrando em contato com o Cloud Customer Care.
- Receber suporte da comunidade fazendo perguntas no StackOverflow e usando a tag
google-kubernetes-engine
para pesquisar problemas semelhantes. Você também pode participar do canal do Slack#kubernetes-engine
para receber mais suporte da comunidade. - Abrir bugs ou solicitações de recursos usando o Issue Tracker público.