Métricas de utilização de recursos da frota

Esta página detalha as métricas de utilização de recursos da frota e da equipe explicando como essas métricas são calculadas e fornecendo dicas de como usá-las para otimizar o uso de recursos.

É possível ver essas métricas nos seguintes painéis:

Essas métricas descrevem a eficiência com que os clusters usam os recursos disponíveis fisicamente ou os recursos alocados em hardware no local. Use essas informações para entender a eficácia da utilização de recursos em escala, no nível do escopo da frota ou da equipe. Isso pode ajudar a otimizar o tamanho do cluster e a alocação de recursos em clusters e namespaces ou otimizar como as equipes de aplicativos solicitam e reservam recursos.

Usar métricas de utilização de recursos

As dicas a seguir podem ajudar você a usar as métricas do console para identificar e resolver problemas:

  • Se a Utilização total de CPU/Memória/Disco da sua frota indicar inesperadamente uma alta ou baixa utilização nos últimos sete dias, sempre verifique o gráfico correspondente de utilização de CPU/Memória/Disco por frota para avaliar se a utilização inesperada é constante ou causada por picos de uso.
  • Se a seção Principais usos de CPU/memória/disco por cluster indicar clusters individuais que se comportam de maneira diferente do restante, considere investigar esses clusters específicos com mais atenção. Considere redimensionar os clusters, se possível.
  • Se a principal utilização de CPU/memória/disco por namespace mostrar um pico inesperado nos últimos sete dias, investigue se uma carga de trabalho específica está causando o pico. Uma solução possível é redistribuir as cargas de trabalho entre recursos.
  • Uso de CPU/memória/disco por frota permite observar a proporção entre os recursos usados e solicitados. Uma grande diferença entre os dois pode significar que as equipes de aplicativo estão solicitando e reservando muitos recursos.

Entender as métricas de utilização dos recursos

As métricas a seguir são fornecidas nos painéis de visão geral do GKE Enterprise, da frota e do escopo da equipe, calculados usando informações do Cloud Monitoring nos clusters da sua frota.

É possível ver as métricas no nível da frota nos painéis de visão geral do GKE Enterprise e da frota. As métricas no nível da equipe estão disponíveis nos painéis de visão geral da equipe e do GKE Enterprise.

Métricas de CPU

  • Uso total da CPU
    • Para as métricas no nível da frota, uma média de todos os pontos no tempo em uma determinada janela em que o ponto no tempo é uma proporção entre recursos alocáveis e usados em todos os clusters registrados em uma frota.
      • Alocável: a quantidade de CPU alocada para todos os nós em todos os clusters registrados em uma frota. Calculado com base na métrica node/cpu/allocatable_cores.
      • Usado: a quantidade de CPU usada por todos os contêineres em todos os clusters registrados em uma frota. Calculado com base na métrica container/cpu/core_usage_time.
    • Para a equipeMonitoramento painel, uma média de todos os pontos no tempo em uma determinada janela de tempo em que o ponto no tempo é uma proporção entre recursos solicitados e recursos usados em todos os namespaces associados a um escopo de equipe.
      • Solicitada: a quantidade de CPU solicitada por todos os contêineres em todos os namespaces associados a um escopo de equipe. Calculado com base na métrica container/cpu/request_cores.
      • Usado: a quantidade de CPU usada por todos os contêineres em todos os namespaces associados a um escopo de equipe. Calculado com base na métrica container/cpu/core_usage_time.
  • Uso da CPU por frota/equipe:
    • No nível da frota, a relação entre recursos usados, solicitados e alocados.
      • Usado: a quantidade de CPU usada por todos os contêineres em todos os clusters registrados em uma frota. Calculado com base na métrica container/cpu/core_usage_time.
      • Solicitada: a quantidade de CPU solicitada por todos os contêineres em todos os clusters registrados em uma frota. Calculado com base na métrica container/cpu/request_cores.
      • Alocável: a quantidade de CPU alocada para todos os nós em todos os clusters registrados em uma frota. Calculado com base na métrica node/cpu/allocatable_cores.
    • Para o nível da equipe, a relação entre o limite de recursos e os recursos usados e solicitados.
      • Usado: a quantidade de CPU usada por todos os contêineres em todos os namespaces associados a um escopo de equipe. Calculado com base na métrica container/cpu/core_usage_time.
      • Solicitada: a quantidade de CPU solicitada por todos os contêineres em todos os namespaces associados a um escopo de equipe. Calculado com base na métrica container/cpu/request_cores.
      • Limite: a quantidade máxima de CPU disponível para todos os contêineres em todos os namespaces associados a um escopo de equipe. Calculado com base na métrica container/cpu/limit_cores.
  • Principal uso da CPU por cluster: lista de clusters classificada por uma média de todos os pontos no tempo em um determinado período em que o ponto no tempo é uma proporção entre recursos alocáveis e usados de um cluster específico.
  • Principal uso da CPU por namespace: lista de namespaces classificada por uma média de todos os pontos no tempo em uma determinada janela de tempo em que o ponto no tempo é uma proporção entre os recursos usados e solicitados para um determinado.
    • Usado: a quantidade de CPU usada por todos os contêineres em um cluster. Calculado com base na métrica container/cpu/core_usage_time.
    • Solicitada: a quantidade de CPU solicitada por todos os contêineres em um namespace. Calculado com base na métrica container/cpu/request_cores.

Métricas de memória

  • Uso total da memória
    • Para as métricas no nível da frota, isso se refere à média de todos os pontos no tempo em uma determinada janela em que o ponto no tempo é uma proporção entre recursos alocáveis e usados em todos os clusters que pertencem a uma frota. de dois minutos.
      • Alocável: a quantidade de memória alocada para todos os nós em todos os clusters registrados em uma frota. Calculado com base na métrica node/memory/allocatable_byte.
      • Usado: a quantidade de memória não inevitável usada por todos os contêineres em todos os clusters que pertencem a uma frota. Calculado com base na métrica container/memory/used_bytes.
    • Para as métricas no nível da equipe, isso se refere a uma média de todos os pontos no tempo em uma determinada janela de tempo em que o ponto no tempo é uma proporção entre os recursos solicitados e usados em todos os namespaces que pertencem a uma equipe escopo.
      • Solicitada: a quantidade de memória solicitada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/memory/request_bytes.
      • Usado: a quantidade de memória não despejável usada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/memory/used_bytes.
  • Uso da memória por frota/equipe:
    • No nível da frota, a relação entre recursos usados, solicitados e alocados.
      • Usado: a quantidade de memória não inevitável usada por todos os contêineres em todos os clusters que pertencem a uma frota. Calculado com base na métrica container/memory/used_bytes.
      • Solicitada: a quantidade de memória solicitada por todos os contêineres em todos os clusters registrados em uma frota. Calculado com base na métrica container/memory/request_bytes.
      • Alocável: a quantidade de memória alocada para todos os nós em todos os clusters registrados em uma frota. Calculado com base na métrica node/memory/allocatable_byte.
    • Para o nível da equipe, a relação entre o limite de recursos e os recursos usados e solicitados.
      • Usado: a quantidade de memória não despejável usada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/memory/used_bytes.
      • Solicitada: a quantidade de memória solicitada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/memory/request_bytes.
      • Limite: a quantidade máxima de memória disponível para todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/memory/limit_bytes.
  • Principal uso da memória por cluster: lista de clusters classificada pela média de todos os pontos no tempo de um determinado período em que o ponto no tempo é uma proporção entre recursos alocáveis e usados para um cluster específico.
    • Alocável: a quantidade de alocação de memória para todos os nós no cluster. Calculado com base na métrica node/memory/allocatable_byte.
    • Usado: a quantidade de memória não inevitável usada por todos os contêineres em um cluster. Calculado com base na métrica container/memory/used_bytes.
  • Uso principal da memória por namespace: lista de namespaces classificada por uma média de todos os pontos no tempo em uma determinada janela de tempo em que o ponto no tempo é uma proporção entre os recursos usados e solicitados para um determinado.
    • Usado: a quantidade de memória não inevitável usada por todos os contêineres em um cluster. Calculado com base na métrica container/memory/used_bytes.
    • Solicitada: a quantidade de memória solicitada por todos os contêineres em um namespace. Calculado com base na métrica container/memory/request_bytes.

métricas de disco

  • Uso total do disco
    • Para as métricas no nível da frota, isso se refere a uma média de todos os pontos no tempo em uma determinada janela em que o momento é uma proporção entre recursos alocáveis e usados em todos os clusters que pertencem a uma frota. de dois minutos.
      • Alocável: a quantidade de armazenamento temporário local alocado para todos os nós em todos os clusters que pertencem a uma frota.. Calculado com base na métrica node/ephemeral_storage/allocatable_bytes.
      • Usado: a quantidade de armazenamento temporário local usado por todos os contêineres em todos os clusters que pertencem a uma frota. Calculado com base na métrica container/ephemeral_storage/used_bytes.
    • Para as métricas no nível da equipe, isso se refere a uma média de todos os pontos no tempo em uma determinada janela de tempo em que o ponto no tempo é uma proporção entre os recursos solicitados e usados em todos os namespaces que pertencem a uma equipe escopo.
      • Solicitado: a quantidade de armazenamento temporário local solicitada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/ephemeral_storage/request_bytes.
      • Usado: a quantidade de armazenamento temporário local usada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/ephemeral_storage/used_bytes.
  • Uso do disco por frota/equipe:
    • No nível da frota, a relação entre recursos usados, solicitados e alocados.
      • Usado: a quantidade de armazenamento temporário local usado por todos os contêineres em todos os clusters que pertencem a uma frota. Calculado com base na métrica container/ephemeral_storage/used_bytes.
      • Solicitado: a quantidade de armazenamento temporário local solicitado por todos os contêineres em todos os clusters que pertencem a uma frota. Calculado com base na métrica container/ephemeral_storage/request_bytes.
      • Alocável: a quantidade de armazenamento temporário local alocado para todos os nós em todos os clusters que pertencem a uma frota.. Calculado com base na métrica node/ephemeral_storage/allocatable_bytes.
    • Para o nível da equipe, a relação entre o limite de recursos e os recursos usados e solicitados.
      • Usado: a quantidade de armazenamento temporário local usada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/ephemeral_storage/used_bytes.
      • Solicitado: a quantidade de armazenamento temporário local solicitada por todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/ephemeral_storage/request_bytes.
      • Limite: a quantidade máxima de armazenamento temporário local disponível para todos os contêineres em todos os namespaces associados a um escopo. Calculado com base na métrica container/ephemeral_storage/limit_bytes.
  • Principal utilização do disco por cluster: lista de clusters classificada por uma média de todos os pontos no tempo em um determinado período em que o ponto no tempo é uma proporção entre recursos alocáveis e usados de um cluster específico.
  • Principal utilização do disco por namespace: lista de namespaces classificada por uma média de todos os pontos no tempo em uma determinada janela em que o ponto no tempo é uma proporção entre os recursos usados e solicitados para um determinado.

Distribuição de erros por namespace (somente no nível da equipe)

Lista de namespaces classificada pelo maior número de registros de erros em um determinado período. Os registros são coletados no Cloud Logging.

Distribuição de contagens de reinicialização por namespace (somente no nível da equipe)

Lista de namespaces classificada pelo maior número de reinicializações de contêiner em um determinado período. Calculado com base na métrica container/restart_count.

Solução de problemas

As métricas não são carregadas para novos clusters

Se você tiver criado novos clusters, dependendo da janela de tempo selecionada, poderá ver No Data em todo o painel do Monitoring ou algumas métricas. Por exemplo, se você criou um cluster na última hora e selecionou uma janela de tempo de 1 hora ou 6 horas, o painel poderá retornar alguns para suas cargas de trabalho. No entanto, se você selecionar uma janela de 1 dia ou mais, poderá ver No data em todo o painel.

Isso ocorre porque o Cloud Monitoring coleta dados em períodos diferentes (intervalos) para janelas de tempo distintas. Para períodos de 1 hora e 6 horas, os dados são coletados em períodos de 1 minuto. Portanto, se o cluster já existir por alguns minutos, você verá métricas para essas janelas de tempo.

Para janelas de tempo de um dia e uma semana, o Cloud Monitoring coleta dados em períodos de uma hora. Se o cluster tiver existido menos de uma hora, talvez você não veja dados para esses períodos.

Se esse erro ocorrer, verifique o painel depois de algum tempo desde a criação do novo cluster.