Resolver problemas de exclusão de clusters

Nesta página, mostramos como resolver problemas com a exclusão de clusters efémeros do Dataproc no Cloud Data Fusion.

Quando o Cloud Data Fusion cria um cluster temporário do Dataproc durante o provisionamento da execução do pipeline, o cluster é excluído após a conclusão da execução do pipeline. Em casos raros, a exclusão do cluster falha.

Recomendado: faça upgrade para a versão mais recente do Cloud Data Fusion para garantir a manutenção adequada do cluster.

Definir o tempo máximo de inatividade

Para resolver esse problema, configure o valor Tempo máximo de inatividade. Isso permite que o Dataproc exclua clusters automaticamente, mesmo que uma chamada explícita no final do pipeline falhe.

O Max Idle Time está disponível nas versões 6.4 e mais recentes do Cloud Data Fusion.

No Cloud Data Fusion 6.6 e versões mais recentes, o tempo máximo de inatividade é definido como 4 horas por padrão.

Para substituir o tempo padrão no perfil de computação padrão, siga estas etapas:

  1. Abra a instância na interface da Web do Cloud Data Fusion.
  2. Clique em Administrador do sistema > Configuração > Preferências do sistema.
  3. Clique em Editar preferências do sistema e adicione a chave system.profile.properties.idleTTL e o valor, no formato IntegerUnit, como 30m.

Recomendado: para versões anteriores à 6.6, defina Max Idle Time manualmente como 30 minutos ou mais.

Excluir clusters manualmente

Se não for possível fazer upgrade da versão ou configurar a opção Max Idle Time, exclua manualmente os clusters desatualizados:

  1. Encontre o ID de cada projeto em que os clusters foram criados:

    1. Nos argumentos de execução do pipeline, verifique se o ID do projeto do Dataproc foi personalizado para a execução.

      Verificar se o ID do projeto do Dataproc está personalizado para a execução

    2. Se um ID de projeto do Dataproc não for especificado explicitamente, determine qual provisionador é usado e verifique se há um ID de projeto:

      1. Nos argumentos de ambiente de execução do pipeline, verifique o valor system.profile.name.

        Conseguir o nome do provisionador nos argumentos de execução

      2. Abra as configurações do provisionador e verifique se o ID do projeto do Dataproc está definido. Se a configuração não estiver presente ou o campo estiver vazio, o projeto em que a instância do Cloud Data Fusion está sendo executada será usado.

  2. Para cada projeto:

    1. Abra o projeto no console do Google Cloud e acesse a página Clusters do Dataproc.

      Acessar Clusters

    2. Ordene os clusters pela data de criação, do mais antigo para o mais recente.

    3. Se o painel de informações estiver oculto, clique em Mostrar painel de informações e acesse a guia Rótulos.

    4. Para cada cluster que não está em uso, por exemplo, se mais de um dia se passou, verifique se ele tem um rótulo de versão do Cloud Data Fusion. Isso indica que ela foi criada pelo Cloud Data Fusion.

    5. Marque a caixa de seleção ao lado do nome do cluster e clique em Excluir.

Ignorar a exclusão do cluster

Para fins de depuração, é possível interromper a exclusão automática de um cluster transitório.

Para interromper a exclusão, defina a propriedade Skip Cluster Deletion como True. Você precisa excluir o cluster manualmente depois de terminar a depuração.