Quando precisa de verificar rapidamente o estado de funcionamento dos seus clusters e cargas de trabalho do Google Kubernetes Engine (GKE), pode ser difícil saber por onde começar. A visualização do estado dos seus clusters e cargas de trabalho na consola do Google Cloud Google Cloud ajuda a avaliar rapidamente o estado do seu ambiente. A integridade do cluster refere-se à integridade da infraestrutura do GKE subjacente, como nós e rede, enquanto a integridade da carga de trabalho se refere ao estado e ao desempenho das suas apps em execução no cluster.
Use esta página para saber como navegar nas páginas de clusters e cargas de trabalho do Kubernetes para obter uma vista geral, identificar potenciais problemas (como nós sob pressão de recursos ou falhas de pods) e analisar recursos específicos para ver mais detalhes.
Estas informações são importantes para os administradores e os operadores da plataforma responsáveis por manter a estabilidade do cluster e que precisam de realizar avaliações rápidas do estado de funcionamento e verificações de recursos. Também é essencial para os programadores de aplicações que precisam de compreender o estado de tempo de execução das respetivas implementações e investigar falhas. Para mais informações sobre as funções comuns e exemplos de tarefas que referimos no conteúdo, consulte o artigo Funções e tarefas comuns do utilizador do GKE. Google Cloud
Para fornecer uma imagem completa do estado da sua app, a Google Cloud consola também lhe dá acesso a ferramentas de registo e monitorização avançadas, o que lhe permite investigar a causa principal de falhas anteriores e evitar proativamente as futuras. Para mais informações sobre estas ferramentas, consulte os artigos Realize análises históricas com o Cloud Logging e Realize uma monitorização proativa com o Cloud Monitoring.
Encontre problemas de clusters
A página Clusters do Kubernetes oferece uma vista geral do estado dos seus clusters. Para identificar problemas com qualquer um dos seus clusters, comece por esta página.
Para começar, na Google Cloud consola, aceda à página Clusters do Kubernetes.
Seguem-se alguns exemplos de como pode usar esta página para a resolução de problemas:
- Para obter aconselhamento sobre como melhorar o estado do cluster, a estratégia de atualização e a otimização de custos, clique em Ver recomendações.
- Para identificar clusters não saudáveis, reveja a coluna Estado. Qualquer cluster que não tenha uma marca de verificação verde requer atenção.
- Para ver potenciais problemas, reveja a coluna Notificações. Clique em qualquer mensagem de notificação para ver mais informações.
Investigue um cluster específico
Depois de descobrir um problema com um cluster, explore a página Detalhes do cluster para ver informações detalhadas que ajudam a resolver problemas do cluster e a compreender a respetiva configuração.
Para aceder à página Detalhes de um cluster, faça o seguinte:
Aceda à página Clusters do Kubernetes.
Reveja a coluna Nome e clique no nome do cluster que quer investigar.
Seguem-se alguns exemplos de como usar a página Detalhes do cluster para resolver problemas do cluster:
Para verificações de funcionamento gerais, experimente as seguintes opções:
Para ver painéis de controlo ao nível do cluster, aceda ao separador Observabilidade. Por predefinição, o GKE ativa o Cloud Monitoring quando cria um cluster. Quando o Cloud Monitoring está ativado, o GKE configura automaticamente os painéis de controlo nesta página. Seguem-se algumas das vistas que pode considerar mais úteis para a resolução de problemas:
- Vista geral: veja um resumo de nível superior do estado do cluster, da utilização de recursos e dos eventos principais. Este painel de controlo ajuda a avaliar rapidamente o estado geral do cluster e a identificar potenciais problemas.
- Métricas de tráfego: veja métricas de rede baseadas em nós para aceder a estatísticas sobre o tráfego entre as suas cargas de trabalho do Kubernetes.
- Estado da carga de trabalho: veja o estado das implementações, dos pods e dos contentores. Identificar instâncias com falhas ou em mau estado de funcionamento e detetar restrições de recursos.
Plano de controlo: veja o estado e o desempenho do plano de controlo. Este painel de controlo permite-lhe monitorizar as principais métricas de componentes, como
kube-apiserver
eetcd
, identificar gargalos de desempenho e detetar falhas de componentes.
Para ver erros recentes da app, aceda ao separador Erros da app. As informações neste separador podem ajudar a priorizar e resolver erros, mostrando o número de ocorrências, quando um erro apareceu pela primeira vez e quando ocorreu pela última vez.
Para investigar um erro mais detalhadamente, clique na mensagem de erro para ver um relatório de erros detalhado, incluindo links para registos relevantes.
Se estiver a resolver problemas após uma atualização ou uma alteração recente, consulte a secção Noções básicas do cluster no separador Detalhes do cluster. Confirme que a versão apresentada no campo Versão é a esperada. Para uma investigação mais detalhada, clique em Mostrar histórico de atualizações na secção Atualizações.
Se estiver a usar um cluster Standard e os seus pods estiverem bloqueados num estado
Pending
, ou suspeitar que os nós estão sobrecarregados, verifique o separador Nodes. O separador Nodes não está disponível para clusters do Autopilot, uma vez que o GKE gere os nós por si.- Na secção Conjuntos de nós, verifique se o dimensionamento automático está configurado corretamente e se o tipo de máquina é adequado para as suas cargas de trabalho.
- Na secção Nodes, procure qualquer nó com um estado diferente de
Ready
. Um estadoNotReady
indica um problema com o próprio nó, como pressão de recursos ou um problema com o kubelet (o kubelet é o agente que é executado em cada nó para gerir contentores).
Encontre problemas de carga de trabalho
Quando suspeitar que existe um problema com uma app específica, como uma implementação falhada, aceda à página Workloads na consola Google Cloud . Esta página oferece uma vista centralizada de todas as apps que são executadas nos seus clusters.
Para começar, na Google Cloud consola, aceda à página Workloads.
Seguem-se alguns exemplos de como pode usar esta página para a resolução de problemas:
- Para identificar cargas de trabalho não saudáveis, reveja a coluna Estado. Qualquer carga de trabalho que não tenha uma marca de verificação verde requer atenção.
- Se uma app não responder, reveja a coluna Pods. Por exemplo, um estado como 1/3 significa que apenas uma de três réplicas da app está em execução, o que indica um problema.
Investigue uma carga de trabalho específica
Depois de identificar uma carga de trabalho problemática na vista geral, explore a página Detalhes da carga de trabalho para começar a isolar a causa principal.
Para aceder à página Detalhes de uma carga de trabalho, faça o seguinte:
Aceda à página Cargas de trabalho.
Veja a coluna Nome e clique no nome da carga de trabalho que quer investigar.
Seguem-se alguns exemplos de como usar a página Detalhes da carga de trabalho para resolver problemas das suas cargas de trabalho:
Para verificar a configuração da carga de trabalho, use os separadores Vista geral e Detalhes da carga de trabalho. Pode usar estas informações para validar eventos, como se a etiqueta de imagem do contentor correta foi implementada ou verificar os pedidos e os limites de recursos da carga de trabalho.
Para encontrar o nome de um pod específico com falhas, aceda à secção Pods geridos. Pode precisar destas informações para os comandos do
kubectl
. Esta secção apresenta todos os pods controlados pela carga de trabalho, juntamente com os respetivos estados.Para ver um histórico das alterações recentes a uma carga de trabalho, aceda ao separador Histórico de revisões. Se notar problemas de desempenho após uma nova implementação, use esta secção para identificar que revisão está ativa. Em seguida, pode comparar as configurações da revisão atual com as anteriores para identificar a origem do problema. Se este separador não estiver visível, a carga de trabalho é de um tipo que não usa revisões ou ainda não teve atualizações.
Se uma implementação parecer ter falhado, aceda ao separador Eventos. Esta página é frequentemente a fonte de informações mais valiosa porque mostra eventos ao nível do Kubernetes.
Para consultar os registos da sua app, clique no separador Registos. Esta página ajuda a compreender o que está a acontecer no cluster. Procure aqui mensagens de erro e rastreios de pilha que podem ajudar a diagnosticar problemas.
Para confirmar exatamente o que foi implementado, consulte o separador YAML. Esta página mostra o manifesto YAML em direto da carga de trabalho tal como existe no cluster. Estas informações são úteis para encontrar discrepâncias nos seus manifestos controlados por origem. Se estiver a ver um manifesto YAML de um único Pod, este separador também mostra o estado do Pod, que fornece estatísticas sobre falhas ao nível do Pod.
O que se segue?
Leia Investigue o estado de um cluster com
kubectl
(a página seguinte desta série).Veja estes conceitos aplicados no cenário de resolução de problemas de exemplo.
Para obter aconselhamento sobre a resolução de problemas específicos, reveja os guias de resolução de problemas do GKE.
Se não conseguir encontrar uma solução para o seu problema na documentação, consulte a secção Obtenha apoio técnico para receber mais ajuda, incluindo aconselhamento sobre os seguintes tópicos:
- Abrindo um registo de apoio ao cliente através do contacto com o Cloud Customer Care.
- Receber apoio técnico da comunidade fazendo perguntas no StackOverflow e usando a etiqueta
google-kubernetes-engine
para pesquisar problemas semelhantes. Também pode juntar-se ao#kubernetes-engine
canal do Slack para receber mais apoio técnico da comunidade. - Abrir erros ou pedidos de funcionalidades através do rastreador de problemas público.