Solução de problemas do Cloud Service Mesh passo a passo
Esta seção explica como solucionar e resolver problemas ao usar o Cloud Service Mesh. Se você precisar de mais ajuda, consulte Como receber suporte.
Etapas da solução de problemas
Siga estas etapas gerais para resolver problemas do Cloud Service Mesh:
- Use as ferramentas de validação de configurações automatizadas.
- Verifique se você tem um problema comum com uma solução conhecida.
- Restrinja o escopo do problema.
- Analise registros e informações relevantes.
- Colete registros de diagnóstico e procure ajuda.
Usar ferramentas de validação automatizadas
O Cloud Service Mesh inclui ferramentas automatizadas de diagnóstico e validação de configuração que podem resolver problemas e ajudar você a evitá-los no futuro. As seções a seguir explicam como usar essas ferramentas.
istioctl analyze
A ferramenta de diagnóstico istioctl analyze
pode detectar problemas comuns de configuração.
Instale istioctl
usando estas
instruções.
istioctl analyze
lê uma configuração de cluster e, se encontra um problema,
fornece mensagens informativas e sugere soluções. Ele pode ser executado em um cluster
ativo ou em um conjunto de arquivos de configuração locais. Ele também pode ser executado em uma
combinação dos dois, permitindo que você encontre problemas antes de aplicar
alterações a um cluster. Para mais informações, consulte
Diagnosticar a configuração com istioctl analyze
.
Para mais informações sobre os erros que o istioctl analyze
detecta, consulte
Mensagens de análise de configuração.
Analisar um cluster ativo
Analise um cluster ativo usando o comando a seguir.
istioctl analyze -A
Se o istioctl analyze
detectar um problema com sua configuração, ele exibirá
uma mensagem com informações úteis para resolvê-lo, se conhecido. Por
exemplo, se você cometeu o erro comum de não rotular o namespace corretamente
para ativar a injeção de sidecar do Istio, ele gerará a seguinte mensagem:
Warn [IST0102] (Namespace default) The namespace is not enabled for Istio injection. Run 'kubectl label namespace default istio-injection=enabled' to enable it, or 'kubectl label namespace default istio-injection=disabled' to explicitly mark it as not needing injection
Se o problema persistir, consulte a próxima seção para verificar se ele já é conhecido.
Verificar problemas e soluções comuns
É possível economizar tempo verificando se os sintomas correspondem a um problema nessas seções comuns de problemas e resoluções, agrupado pela área funcional do Cloud Service Mesh:
- Problemas de instalação
- Problemas de plano de controle gerenciado
- Problemas de observabilidade
- Problemas de implantação fora do Google Cloud
- Problemas de proxy
- Problemas de recursos
- Problemas de escalonamento
- Problemas de segurança
- Problemas de gerenciamento de tráfego
- Problemas com o webhook
- Problemas de proxies do sidecar
Se isso não resolver o problema, veja a próxima seção.
Restringir o escopo do problema
O Cloud Service Mesh consiste em várias tecnologias que trabalham juntas, o que significa que certos tipos de problemas estão associados a determinadas áreas funcionais ou componentes. Cada um desses componentes gera registros úteis. Antes de tentar analisar manualmente o volume de informações que eles fornecem, restrinja o escopo da solução de problemas respondendo às seguintes perguntas:
- O problema ocorre dentro do plano de controle ou do plano de dados, por exemplo, proxies do
istiod
ou Envoy? - Em qual área funcional você está enfrentando o problema, por exemplo: rede, telemetria, segurança etc.?
- Há perda de tráfego de malha de serviço ampla ou em uma implantação específica?
- O problema surge ou piora devido à falta de capacidade de escalonamento de tráfego na malha de serviço?
- O problema causa latência ou outros problemas de desempenho?
- É possível reproduzir o problema sob demanda?
- O problema começou após uma alteração de configuração recente no Istio, no GKE etc.?
- Há um aumento ou pico no tráfego na malha de serviço?
- Esse cluster tem algum recurso perceptível ativado ou implantações não típicas?
- Você observa alta utilização da CPU ou da memória? Em caso afirmativo, qual é o uso esperado em grande escala?
- Há restrições de cota a serem consideradas?
Ver status do plano de controle
Os comandos a seguir ajudam a entender o status do plano de controle do Cloud Service Mesh:
kubectl get pods -n istio-system
kubectl describe -n istio-system
- Para todos os pods no istio-system:
kubectl logs -n istio-system -l istio --all-containers
istioctl version
istioctl proxy-status
kubectl get configmap istio -o yaml && kubectl get configmap istio-sidecar-injector -o yaml
kubectl top pods -n istio-system
Use os seguintes comandos para entender a escala da implantação:
kubectl get nodes
kubectl get services --all-namespaces
kubectl get pods --all-namespaces
Analisar registros e informações relevantes
Depois de restringir o escopo do problema, concentre-se em determinados registros e informações com mais eficiência. Para saber mais sobre os registros que o Cloud Service Mesh gera e como interpretar as informações que elas contêm, consulte Como interpretar registros do Cloud Service Mesh.