Como resolver problemas de limite de recursos no Cloud Service Mesh

Esta seção explica problemas comuns do Cloud Service Mesh e como resolvê-los. Se você precisar de mais ajuda, consulte Como receber suporte.

Os problemas de limite de recursos do Cloud Service Mesh podem ser causados por qualquer um dos seguintes motivos:

  • Objetos LimitRange criados no namespace istio-system ou qualquer namespace com injeção automática de arquivo secundário ativada.
  • Limites definidos pelo usuário que são muito baixos.
  • Os nós ficam sem memória ou outros recursos.

Possíveis sintomas de problemas de recursos:

  • O Cloud Service Mesh repetidamente não recebe a configuração do istiod indicado pelo erro Envoy proxy NOT ready. Ver esse erro algumas vezes na inicialização é normal, mas, caso contrário, é uma preocupação.
  • Problemas de rede com alguns pods ou nós que se tornam inacessíveis.
  • istioctl proxy-status mostrando status STALE na saída.
  • Mensagens OOMKilled nos registros de um nó.
  • Uso da memória por contêineres: kubectl top pod POD_NAME --containers.
  • Uso da memória por pods em um nó: kubectl top node my-node.
  • Invocação de memória: kubectl get pods mostra o status OOMKilled na saída.

Os arquivos secundários do Istio levam muito tempo para receber a configuração

A propagação de configuração lenta pode ocorrer devido a recursos insuficientes alocados para o istiod ou um tamanho de cluster excessivamente grande.

Há várias soluções possíveis para esse problema:

  1. Se suas ferramentas de monitoramento (Prometheus, Stackdriver etc.) mostrarem a alta utilização de um recurso pelo istiod, aumente a alocação desse recurso. Por exemplo, aumente o limite da CPU ou da memória da implantação do istiod. Esta é uma solução temporária. Recomendamos que você investigue métodos para reduzir o consumo de recursos.

  2. Se você encontrar esse problema em um grande cluster/implantação, reduza os estados de configuração enviados para cada proxy configurando recursos do arquivo secundário.

  3. Se o problema persistir, tente escalonar horizontalmente o istiod.

  4. Se todas as outras etapas de solução de problemas não resolverem o problema, informe um bug detalhando a implantação e os problemas observados. Siga estas etapas para incluir um perfil de CPU/memória no relatório do bug, se possível, junto com uma descrição detalhada do tamanho do cluster, número de pods, número de serviços etc.