Neste documento, mostramos como criar um conjunto de painéis personalizados recomendados para monitorar seus clusters.
Permissões para criar painéis
Para criar painéis, sua Conta do Google precisa ter as seguintes permissões:
monitoring.dashboards.create
monitoring.dashboards.delete
monitoring.dashboards.update
Você terá essas permissões se sua conta tiver um dos papéis a seguir. É possível verificar suas permissões (no console do Google Cloud):
monitoring.dashboardEditor
monitoring.editor
- Projeto
editor
- Projeto
owner
Além disso, para usar a gcloud
(gcloud CLI) para criar painéis, a Conta do Google precisa ter a permissão serviceusage.services.use
.
Sua conta terá essa permissão se tiver um dos seguintes papéis:
roles/serviceusage.serviceUsageConsumer
roles/serviceusage.serviceUsageAdmin
roles/owner
roles/editor
- Projeto
editor
- Projeto
owner
Painéis recomendados
Depois de criar um cluster (de administrador ou de usuário), uma prática recomendada é criar os seguintes painéis com o Cloud Monitoring para permitir que a equipe de operações do GKE no VMware monitore a integridade do cluster:
- Painel de tempo de atividade do plano de controle
- Painel de status do pod
- Painel de status do nó
- Painel de status de integridade da VM
- Painel de utilização do nó
- Painel de utilização do Anthos
Se o cluster também executa nós do Windows Server OS, crie os seguintes painéis para monitorar o status dos nós e pods do Windows:
- Painel de status de nós do Windows
- Painel de status do pod do Windows
Os painéis serão criados automaticamente durante a instalação do cluster de administrador se o Cloud Monitoring estiver ativado.
Nesta seção, você verá como criar esses painéis. Para mais informações sobre o processo de criação de painéis descrito nas seções a seguir, consulte Como gerenciar painéis por API.
Criar um painel de tempo de atividade do plano de controle
O plano de controle do GKE no VMware consiste no servidor de API, no programador, no gerenciador do controlador e no etcd. Para monitorar o status do plano de controle, crie um painel que monitore o estado desses componentes.
Faça o download da configuração do painel:
control-plane-uptime.json
.Crie um painel personalizado com o arquivo de configuração executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=control-plane-uptime.json
No Console do Google Cloud, selecione Monitoring ou use o seguinte botão:
Selecione Recursos > Painéis e veja o painel chamado Tempo de atividade do plano de controle do GKE On-Prem. O tempo de atividade do plano de controle de cada cluster de usuário é coletado de namespaces separados no cluster de administrador. O campo namespace_name é o nome do cluster de usuário.
Como opção, crie políticas de alertas.
Criar um painel de status do pod
Para criar um painel que inclua a fase de cada pod, além dos tempos de reinicialização e do uso de recursos de cada contêiner, execute as etapas a seguir.
Faça o download da configuração do painel:
pod-status.json
.Crie um painel personalizado com o arquivo de configuração executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=pod-status.json
No Console do Google Cloud, selecione Monitoring ou use o seguinte botão:
Selecione Recursos > Painéis e veja o painel chamado Status do pod do GKE On-Prem.
Como opção, crie políticas de alertas.
Criar um painel de status do nó
Para criar um painel de status do nó para monitorar a condição do nó, a CPU, a memória e o uso do disco, execute as seguintes etapas:
Faça o download da configuração do painel:
node-status.json
.Crie um painel personalizado com o arquivo de configuração executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=node-status.json
No Console do Google Cloud, selecione Monitoring ou use o seguinte botão:
Selecione Recursos > Painéis e veja o painel chamado Status do nó do GKE On-Prem.
Como opção, crie políticas de alertas.
Crie um painel de status de integridade da VM
Um painel de status de integridade da VM monitora sinais de contenção de recursos de CPU, memória e disco para VMs no cluster de administrador e em clusters de usuário.
Para criar um painel de status de integridade da VM:
Verifique se
stackdriver.disableVsphereResourceMetrics
está definido como falso. Consulte Arquivo de configuração do cluster do usuário.Faça o download da configuração do painel:
vm-health-status.json
.Crie um painel personalizado com o arquivo de configuração executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=vm-health-status.json
No Console do Google Cloud, selecione Monitoring ou use o seguinte botão:
Selecione Recursos > Painéis e veja o painel chamado Status de integridade da VM do GKE On-Prem.
Como opção, crie políticas de alertas.
Criar um painel de utilização de nós
Um painel de utilização de nós mostra a seguinte utilização no cluster:
- Proporção de alocação de CPU do nó
- vCPUs disponíveis para programar a carga de trabalho do Kubernetes
- Proporção de alocação de memória do nó
- Memória disponível para programar a carga de trabalho do k8s
- Proporção de utilização do disco do nó
Para criar um painel de utilização de nós:
Faça o download da configuração do painel:
node-utilization.json
.Use esse arquivo de configuração para criar um painel personalizado executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=node-utilization.json
No Console do Google Cloud, selecione Monitoring ou use este botão:
Selecione Recursos > Painéis e veja o painel chamado Uso do nó do GKE On-Prem.
Como opção, crie políticas de alertas.
Criar um painel de medição de uso do Anthos
Um painel de medição de uso do Anthos mostra o uso de CPU e memória nos clusters por namespace e rótulos de pod.
Para criar um painel de medição de uso do Anthos:
Faça o download da configuração do painel:
anthos-utilization.json
.Use esse arquivo de configuração para criar um painel personalizado executando o seguinte comando:
gcloud monitoring dashboards create --config-from-file=anthos-utilization.json
No Console do Google Cloud, selecione Monitoring ou use este botão:
Selecionar Recursos > Painéis e ver o painel chamado Medição de utilização do Anthos.
Como opção, crie políticas de alertas.