Esta página foi traduzida pela API Cloud Translation.

Resolva problemas de criação de clusters

Use a ferramenta `gcpdiag`

gcpdiag é uma ferramenta de código aberto. Não é um produto Google Cloud suportado oficialmente. Pode usar a ferramenta gcpdiag para ajudar a identificar e corrigir Google Cloud problemas do projeto. Para mais informações, consulte o projeto gcpdiag no GitHub.

A ferramenta gcpdiag ajuda a descobrir os seguintes problemas de criação de clusters do Dataproc através das seguintes verificações:

Erros de rutura de stock: avalia os registos do Explorador de registos para descobrir ruturas de stock em regiões e zonas.
Quota insuficiente: verifica a disponibilidade de quota no projeto do cluster do Dataproc.
Configuração de rede incompleta: executa testes de conetividade de rede, incluindo verificações das regras de firewall necessárias e da configuração de IP externa e interna. Se o cluster tiver sido eliminado, a ferramenta gcpdiag não pode efetuar uma verificação da conetividade de rede.
Configuração incorreta entre projetos: verifica as contas de serviço entre projetos e revê a aplicação de funções adicionais e políticas da organização.
Funções da IAM da rede da nuvem virtual privada partilhada em falta: se o cluster do Dataproc usar uma rede da VPC partilhada, verifica se foram adicionadas as funções da conta de serviço necessárias.
Falhas na ação de inicialização: avalia os registos do Explorador de registos para descobrir falhas e tempos limite do script de ação de inicialização.

Para ver uma lista de gcpdiagpassos de criação de clusters, consulte a secção Passos potenciais.

Execute o comando `gcpdiag`

Pode executar o comando gcpdiag a partir do Cloud Shell na Google Cloud consola ou num contentor Docker.

Google Cloud consola

Conclua e, em seguida, copie o seguinte comando.

gcpdiag runbook dataproc/cluster-creation \
    --parameter project_id=PROJECT_ID \
    --parameter cluster_name=CLUSTER_NAME \
    --parameter OPTIONAL_FLAGS

Abra a Google Cloud consola e ative o Cloud Shell.

Abra a Cloud Console

Cole o comando copiado.
Execute o comando gcpdiag, que transfere a imagem do Docker gcpdiag e, em seguida, faz verificações de diagnóstico. Se aplicável, siga as instruções de saída para corrigir as verificações com falhas.

Docker

Pode executar o gcpdiag usando um wrapper que inicia o gcpdiag num contentor do Docker. O Docker ou o Podman têm de estar instalados.

Copie e execute o seguinte comando na sua estação de trabalho local.
```
curl https://gcpdiag.dev/gcpdiag.sh >gcpdiag && chmod +x gcpdiag
```

Execute o comando gcpdiag.

./gcpdiag runbook dataproc/cluster-creation \
    --parameter project_id=PROJECT_ID \
    --parameter cluster_name=CLUSTER_NAME \
    --parameter OPTIONAL_FLAGS

Veja os parâmetros disponíveis para este manual de procedimentos.

Substitua o seguinte:

PROJECT_ID: o ID do projeto que contém o recurso
CLUSTER_NAME: o nome do cluster do Dataproc de destino no seu projeto
OPTIONAL_PARAMETERS: adicione um ou mais dos seguintes parâmetros opcionais. Estes parâmetros são obrigatórios se o cluster tiver sido eliminado.
- cluster_uuid: o UUID do cluster do Dataproc de destino no seu projeto
- service_account: a conta de serviço da VM do cluster do Dataproc
- subnetwork: O caminho do URI completo da sub-rede do cluster do Dataproc
- internal_ip_only: verdadeiro ou falso
- cross_project: O ID entre projetos se o cluster do Dataproc usar uma conta de serviço de VM noutro projeto

Sinalizações úteis:

--universe-domain: Se aplicável, o domínio de nuvem soberana de parceiros fidedignos que aloja o recurso
--parameter ou -p: parâmetros do Runbook

Para ver uma lista e uma descrição de todas as flags da ferramenta gcpdiag, consulte as gcpdiag instruções de utilização.

Compreenda e corrija erros de criação de clusters

Esta secção apresenta mensagens de erro do Dataproc, bem como as respetivas causas e soluções comuns.

A operação excedeu o tempo limite: apenas 0 de 2 datanodes/gestores de nós mínimos necessários em execução.

Causa: o nó do controlador não consegue criar o cluster porque não consegue comunicar com os nós de trabalho.

Solução:
- Verifique os avisos de regras de firewall.
- Certifique-se de que as regras de firewall corretas estão implementadas. Para mais informações, consulte o artigo Vista geral das regras de firewall predefinidas do Dataproc.
- Faça um teste de conetividade na Google Cloud consola para determinar o que está a bloquear a comunicação entre o controlador e os nós de trabalho.
Autorização compute.subnetworks.use necessária para projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: este erro pode ocorrer quando tenta configurar um cluster do Dataproc usando uma rede VPC noutro projeto e a conta de serviço do agente de serviço do Dataproc não tem as autorizações necessárias no projeto de VPC partilhada que está a alojar a rede.

Solução: siga os passos indicados em Crie um cluster que use uma rede de VPC noutro projeto.
A zona projects/zones/{zone} não tem recursos suficientes disponíveis para satisfazer o pedido (resource type:compute)

Causa: a zona usada para criar o cluster não tem recursos suficientes.

Solução:
- Crie o cluster numa zona diferente.
- Use a funcionalidade de posicionamento automático de zonas do Dataproc.
Erros de quota excedida

Quota CPUS/CPUS_ALL_REGIONS insuficiente
Quota "DISKS_TOTAL_GB" insuficiente
Quota "IN_USE_ADDRESSES" insuficiente

Causa: o seu pedido de CPU, disco ou endereço IP excede a quota disponível.

Solução: peça quota adicional na Google Cloud consola.
Falha na ação de inicialização

Causa: a ação de inicialização fornecida durante a criação do cluster não foi instalada.

Solução:
- Veja as considerações e as diretrizes das ações de inicialização.
- Examine os registos de saída. A mensagem de erro deve fornecer um link para os registos no Cloud Storage.
Falha ao inicializar o nó CLUSTER-NAME-m. ... Ver resultado em: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: não foi possível inicializar o nó do controlador do cluster do Dataproc.

Solução:
- Reveja os registos de saída do script de arranque indicados na mensagem de erro (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) e verifique a causa da falha na inicialização do nó.
- As causas podem incluir problemas de configuração de rede do cluster do Dataproc e falha na instalação das dependências do pacote Python.
- Se o problema não for resolvido depois de rever os registos do script de arranque, corrija quaisquer problemas do lado do utilizador e, em seguida, tente novamente com o recuo exponencial. Contacte o apoio técnico do Google Cloud.
Falha na criação do cluster: espaço de endereços IP esgotado

Causa: o espaço de endereços IP necessário para aprovisionar os nós do cluster pedidos não está disponível.

Solução:
- Crie um cluster numa sub-rede ou numa rede diferente.
- Reduza a utilização na rede para libertar espaço de endereços IP.
- Aguarde até que fique disponível espaço de IP suficiente na rede.

Mensagem de erro do script de inicialização: o repositório REPO_NAME já não tem um ficheiro de lançamento

Causa: o repositório de backports do Debian oldstable foi anulado.

Solução:

Adicione o seguinte código antes do código que é executado apt-get no seu script de inicialização.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Tempo limite de espera para que a instância DATAPROC_CLUSTER_VM_NAME comunique ou A rede está inacessível: dataproccontrol-REGION.googleapis.com

Causa: estas mensagens de erro indicam que a configuração de rede do seu cluster do Dataproc está incompleta: pode estar a faltar a rota para o gateway de Internet predefinido ou as regras de firewall.

Solução:

Para resolver este problema, pode criar os seguintes testes de conetividade:
- Crie um teste de conetividade entre duas VMs do cluster do Dataproc. O resultado deste teste ajuda a compreender se as regras de firewall de permissão de entrada ou saída da sua rede se aplicam corretamente às VMs do cluster.
- Crie um teste de conetividade entre uma VM do cluster do Dataproc e um endereço IP da API de controlo do Dataproc atual. Para obter um endereço IP atual da API Dataproc Control, use o seguinte comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Use qualquer um dos endereços IPv4 na secção de respostas do resultado.

O resultado do teste de conetividade ajuda a compreender se o caminho para o gateway de Internet predefinido e a firewall de saída estão configurados corretamente.

Com base nos resultados dos testes de conetividade:
- Adicione uma rota à Internet à sua rede VPC do cluster: 0.0.0.0/0 para IPv4 e ::/0 para IPv6 com --next-hop-gateway=default-internet-gateway.
- Adicione regras de firewall para controlo de acesso.
Erro devido à atualização

Causa: o cluster aceitou uma tarefa enviada para o serviço Dataproc, mas não conseguiu aumentar ou diminuir a escala manualmente ou através do redimensionamento automático. Este erro também pode ser causado por uma configuração de cluster não padrão.

Solução:
- Reposição do cluster: abra um pedido de apoio técnico, inclua um ficheiro TAR de diagnóstico e peça que o cluster seja reposto para um estado RUNNING.
- Novo cluster: recrie o cluster com a mesma configuração. Esta solução pode ser mais rápida do que uma reposição fornecida pelo apoio técnico.

Sugestões de resolução de problemas de clusters

Esta secção fornece orientações adicionais sobre a resolução de problemas comuns que podem impedir a criação de clusters do Dataproc.

Quando um cluster do Dataproc não é aprovisionado, produz frequentemente uma mensagem de erro genérica ou comunica um estado PENDING ou PROVISIONING antes de falhar. A chave para diagnosticar e resolver problemas de falhas de clusters é examinar os registos de clusters e avaliar os pontos de falhas comuns.

Sintomas e mensagens de erro comuns

Seguem-se os sintomas e as mensagens de erro comuns associados a falhas de criação de clusters:

O estado do cluster permanece PENDING ou PROVISIONING durante um período prolongado.
O cluster passa para o estado ERROR.
Erros genéricos da API durante a criação de clusters, como Operation timed out.
Mensagens de erro registadas ou de resposta da API, como:
- RESOURCE_EXHAUSTED: relacionado com quotas de CPU, disco ou endereço IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com ou Could not reach required Google APIs
- Connection refused ou network unreachable
- Erros relacionados com a falha das ações de inicialização, como erros de execução de scripts e ficheiros não encontrados.

Reveja os registos do cluster

Um passo inicial importante ao diagnosticar falhas na criação de clusters é rever os registos detalhados de clusters disponíveis no Cloud Logging.

Aceda ao Explorador de registos: abra o Explorador de registos na Google Cloud consola.
Filtre por clusters do Dataproc:
- No menu pendente Recurso, selecione Cloud Dataproc Cluster.
- Introduza o seu cluster_name e project_id. Também pode filtrar por location (região).
Examine as entradas do registo:
- Procure mensagens ao nível de ERROR ou WARNING que ocorram perto da hora da falha de criação do cluster.
- Preste atenção aos registos dos componentes master-startup, worker-startup e agent para obter estatísticas sobre problemas ao nível da VM ou do agente Dataproc.
- Para obter informações detalhadas sobre problemas de tempo de arranque da VM, filtre os registos por resource.type="gce_instance" e procure mensagens dos nomes das instâncias associadas aos nós do cluster, como CLUSTER_NAME-m ou CLUSTER_NAME-w-0. Os registos da consola série podem revelar problemas de configuração de rede, problemas de disco e falhas de scripts que ocorrem no início do ciclo de vida da VM.

Causas comuns de falhas de clusters e sugestões de resolução de problemas

Esta secção descreve os motivos comuns pelos quais a criação do cluster do Dataproc pode falhar e fornece sugestões de resolução de problemas para ajudar a resolver falhas de clusters.

Autorizações de IAM insuficientes

A conta de serviço da VM que o seu cluster do Dataproc usa tem de ter as funções da IAM adequadas para aprovisionar instâncias do Compute Engine, aceder a contentores do Cloud Storage, escrever registos e interagir com outros Google Cloud serviços.

Função de trabalhador obrigatória: verifique se a conta de serviço da VM tem a função Trabalhador do Dataproc (roles/dataproc.worker). Esta função tem as autorizações mínimas necessárias para o Dataproc gerir os recursos do cluster.
Autorizações de acesso aos dados: se os seus trabalhos lerem ou escreverem no Cloud Storage ou no BigQuery, a conta de serviço precisa de funções relacionadas, como Storage Object Viewer, Storage Object Creator ou Storage Object Admin para o Cloud Storage, ou BigQuery Data Viewer ou BigQuery Editor para o BigQuery.
Autorizações de registo: a conta de serviço tem de ter uma função com as autorizações necessárias para escrever registos no Cloud Logging, como a função Logging Writer.