Como resolver problemas de limite de recursos no Cloud Service Mesh

Nesta seção, explicamos problemas comuns do Cloud Service Mesh e como resolver para resolvê-los com rapidez. Se você precisar de mais ajuda, consulte Como receber suporte.

Os problemas de limite de recursos do Cloud Service Mesh podem ser causados por qualquer um dos seguintes:

  • Objetos LimitRange criados no namespace istio-system ou qualquer namespace com injeção automática de arquivo secundário ativada.
  • Limites definidos pelo usuário que são muito baixos.
  • Os nós ficam sem memória ou outros recursos.

Possíveis sintomas de problemas de recursos:

  • O Cloud Service Mesh não está recebendo repetidamente configurações do plano de controle indicado pelo erro, Envoy proxy NOT ready. Ver esse erro algumas vezes na inicialização é normal, mas, caso contrário, é uma preocupação.
  • Problemas de rede com alguns pods ou nós que se tornam inacessíveis.
  • istioctl proxy-status mostrando status STALE na saída.
  • Mensagens OOMKilled nos registros de um nó.
  • Uso da memória por contêineres: kubectl top pod POD_NAME --containers.
  • Uso da memória por pods em um nó: kubectl top node my-node.
  • Invocação de memória: kubectl get pods mostra o status OOMKilled na saída.

Os arquivos secundários demoram muito para receber configuração

A propagação de configuração lenta pode ocorrer devido a recursos insuficientes alocados para o istiod ou um tamanho de cluster excessivamente grande.

Há várias soluções possíveis para esse problema:

  1. Para a Service Mesh do Cloud no cluster, se suas ferramentas de monitoramento (Prometheus, Stackdriver etc.) mostrarem a alta utilização de um recurso pelo istiod, aumente a alocação desse recurso. Por exemplo, aumente o limite da CPU ou da memória da implantação do istiod. Essa é uma solução temporária, e recomendamos métodos para reduzir o consumo de recursos.

  2. Se você encontrar esse problema em um cluster grande ou em uma implantação, reduza o o estado de configuração enviado para cada proxy configurando Recursos do arquivo secundário.

  3. Para o Cloud Service Mesh no cluster, se o problema persistir, tente escalonamento horizontal de istiod.

  4. Se todas as outras etapas de solução de problemas não resolverem o problema, informe um bug detalhando a implantação e os problemas observados. Seguir estas etapas incluir um perfil de CPU/memória no relatório do bug, se possível, junto com um descrição detalhada do tamanho do cluster, número de pods e número de serviços.