Como resolver problemas de limite de recursos no Anthos Service Mesh

Nesta seção, explicamos problemas comuns do Anthos Service Mesh e como resolvê-los. Se você precisar de mais ajuda, consulte Como receber suporte.

Os problemas de limite de recursos do Anthos Service Mesh podem ser causados por qualquer um dos seguintes motivos:

Objetos LimitRange criados no namespace istio-system ou qualquer namespace com injeção automática de arquivo secundário ativada.
Limites definidos pelo usuário que são muito baixos.
Os nós ficam sem memória ou outros recursos.

Possíveis sintomas de problemas de recursos:

O Anthos Service Mesh repetidamente não recebe a configuração do istiod indicado pelo erro Envoy proxy NOT ready. Ver esse erro algumas vezes na inicialização é normal, mas, caso contrário, é uma preocupação.
Problemas de rede com alguns pods ou nós que se tornam inacessíveis.
istioctl proxy-status mostrando status STALE na saída.
Mensagens OOMKilled nos registros de um nó.
Uso da memória por contêineres: kubectl top pod POD_NAME --containers.
Uso da memória por pods em um nó: kubectl top node my-node.
Invocação de memória: kubectl get pods mostra o status OOMKilled na saída.

Os arquivos secundários do Istio levam muito tempo para receber a configuração

A propagação de configuração lenta pode ocorrer devido a recursos insuficientes alocados para o istiod ou um tamanho de cluster excessivamente grande.

Há várias soluções possíveis para esse problema:

Se suas ferramentas de monitoramento (Prometheus, Stackdriver etc.) mostrarem a alta utilização de um recurso pelo istiod, aumente a alocação desse recurso. Por exemplo, aumente o limite da CPU ou da memória da implantação do istiod. Essa é uma solução temporária. Recomendamos que você investigue métodos para reduzir o consumo de recursos.
Se você encontrar esse problema em um grande cluster/implantação, reduza os estados de configuração enviados para cada proxy configurando recursos do arquivo secundário.
Se o problema persistir, tente escalonar horizontalmente o istiod.
Se todas as outras etapas de solução de problemas não resolverem o problema, informe um bug detalhando a implantação e os problemas observados. Siga estas etapas para incluir um perfil de CPU/memória no relatório do bug, se possível, junto com uma descrição detalhada do tamanho do cluster, número de pods, número de serviços etc.