Solução de problemas do painel do GKE

Se você não tiver a opção GKE no menu Recursos, talvez não tenha clusters do GKE usando o Cloud Operations para GKE.

Por que não consigo ver os recursos do Kubernetes no meu painel?

Se você não vir nenhum recurso do Kubernetes no painel do Cloud Operations para GKE, verifique o seguinte:

O projeto correto do Google Cloud está selecionado na parte superior da página?

Caso contrário, use a lista suspensa na barra de menus para selecionar um projeto. Escolha aquele com os dados que você quer ver.

O projeto tem alguma atividade?

Se você tiver acabado de criar o cluster, aguarde alguns minutos para que ele seja preenchido com dados. Consulte Como instalar o suporte ao Monitoring e Logging para mais detalhes.

O intervalo de tempo é muito limitado?

Use o menu Time na barra de ferramentas do painel para selecionar outros períodos ou definir um intervalo personalizado.

Você tem as permissões indicadas para visualizar o painel?

Se uma das mensagens de erro a seguir for exibida ao consultar os detalhes de implantação de um serviço ou as métricas de um projeto do Google Cloud, você precisará atualizar o papel de gerenciamento de identidade e acesso para incluir roles/monitoring.viewer ou roles/viewer:

  • You do not have sufficient permissions to view this page
  • You don't have permissions to perform the action on the selected resources

Para mais detalhes, acesse Papéis predefinidos.

A conta de serviço dos clusters e nós tem permissão para gravar dados no Monitoring e no Logging?

Se você vir altas taxas de erro no painel de API, talvez a conta de serviço não tenha os papéis a seguir:

  • roles/logging.logWriter: no Console do Google Cloud, esse papel é denominado Gravador de registros. Para mais informações sobre papéis do Logging, consulte o Guia de controle de acesso ao Logging.

  • roles/monitoring.metricWriter: no Console do Google Cloud, esse papel é denominado Gravador de métricas do Monitoring. Para mais informações sobre os papéis do Monitoring, consulte o Guia de controle de acesso ao Monitoring.

  • roles/stackdriver.resourceMetadata.writer: no Console do Google Cloud, esse papel é denominado Gravador de metadados de recursos do Stackdriver. Ele fornece acesso somente de gravação a metadados de recursos e fornece as permissões exatas necessárias para que os agentes enviem metadados. Para mais informações sobre os papéis do Monitoring, consulte o Guia de controle de acesso ao Monitoring.

Por que não vejo todos os meus registros?

Seu agente está sobrecarregado e descartando registros?

Um possível motivo para você não ver todos os seus registros é que o volume de registros do nó está sobrecarregando o agente. A configuração padrão do agente do Logging no GKE é ajustada para a taxa de 100 kiB/s por nó, e o agente pode começar a descartar registros se o volume exceder esse limite.

Para saber se você está atingindo esse limite, procure um dos seguintes indicadores:

  • Visualize a métrica kubernetes.io/container/cpu/core_usage_time com o filtro container_name=fluentd-gcp para ver se o uso de CPU do agente do Logging está próximo ou em 100%.

  • Visualize a métrica logging.googleapis.com/byte_count agrupada por metadata.system_labels.node_name para ver se algum nó atinge 100 kiB/s.

Se você encontrar alguma dessas condições, reduza o volume de registro dos nós adicionando mais nós ao cluster. Se todo o volume de registro vier de um único pod, será necessário reduzir o volume desse pod.

Se você quiser alterar os parâmetros de ajuste do agente do Logging, consulte o guia Como personalizar registros do Cloud Logging para GKE com o Fluentd para implantar uma configuração personalizada do agente do Logging.

Por que meu incidente não corresponde a um recurso do GKE?

Se você tiver uma condição de política de alertas que agregue métricas em recursos distintos do GKE, talvez seja necessário editar a condição da política para incluir mais rótulos de hierarquia do GKE para associar incidentes a entidades específicas.

Por exemplo, é possível ter dois clusters do GKE, um para produção e outro para preparação, cada um com a própria cópia de serviço lilbuddy-2. Quando a condição da política de alertas agregar uma métrica entre os contêineres nos dois clusters, o painel de monitoramento do GKE não poderá associar esse incidente exclusivamente ao serviço de produção ou de teste.

Para resolver essa situação, segmente a política de alertas para um serviço específico adicionando namespace, cluster e location ao campo Agrupar por da política. No card de evento do alerta, clique no link Atualizar política de alertas para abrir a página Editar política de alertas da política de alertas relevante. Nesse local, é possível atualizar a política de alertas com informações adicionais para que o painel possa encontrar o recurso associado.

Depois de atualizar a política de alertas, o painel de monitoramento do GKE pode associar todos os incidentes futuros a um serviço exclusivo em um cluster específico, fornecendo informações adicionais para diagnosticar o problema.

Dependendo do caso de uso, convém filtrar alguns desses rótulos, além de adicioná-los ao campo Agrupar por. Por exemplo, se você quiser apenas alertas para seu cluster de produção, filtre em cluster_name.