Como resolver problemas de limite de recursos no Cloud Service Mesh
Esta seção explica problemas comuns do Cloud Service Mesh e como resolvê-los. Se você precisar de mais ajuda, consulte Como receber suporte.
Os problemas de limite de recursos do Cloud Service Mesh podem ser causados por qualquer um dos seguintes motivos:
- Objetos
LimitRange
criados no namespaceistio-system
ou qualquer namespace com injeção automática de arquivo secundário ativada. - Limites definidos pelo usuário que são muito baixos.
- Os nós ficam sem memória ou outros recursos.
Possíveis sintomas de problemas de recursos:
- O Cloud Service Mesh repetidamente não recebe a configuração do
istiod
indicado pelo erroEnvoy proxy NOT ready
. Ver esse erro algumas vezes na inicialização é normal, mas, caso contrário, é uma preocupação. - Problemas de rede com alguns pods ou nós que se tornam inacessíveis.
istioctl proxy-status
mostrando statusSTALE
na saída.- Mensagens
OOMKilled
nos registros de um nó. - Uso da memória por contêineres:
kubectl top pod POD_NAME --containers
. - Uso da memória por pods em um nó:
kubectl top node my-node
. - Invocação de memória:
kubectl get pods
mostra o statusOOMKilled
na saída.
Os arquivos secundários do Istio levam muito tempo para receber a configuração
A propagação de configuração lenta pode ocorrer devido a recursos insuficientes alocados para o istiod
ou um tamanho de cluster excessivamente grande.
Há várias soluções possíveis para esse problema:
Se suas ferramentas de monitoramento (Prometheus, Stackdriver etc.) mostrarem a alta utilização de um recurso pelo
istiod
, aumente a alocação desse recurso. Por exemplo, aumente o limite da CPU ou da memória da implantação doistiod
. Esta é uma solução temporária. Recomendamos que você investigue métodos para reduzir o consumo de recursos.Se você encontrar esse problema em um grande cluster/implantação, reduza os estados de configuração enviados para cada proxy configurando recursos do arquivo secundário.
Se o problema persistir, tente escalonar horizontalmente o
istiod
.Se todas as outras etapas de solução de problemas não resolverem o problema, informe um bug detalhando a implantação e os problemas observados. Siga estas etapas para incluir um perfil de CPU/memória no relatório do bug, se possível, junto com uma descrição detalhada do tamanho do cluster, número de pods, número de serviços etc.