Esta página descreve como reutilizar clusters do Dataproc para suas execuções de pipeline no Cloud Data Fusion. Para mais informações, consulte Quando reutilizar clusters e Executar um pipeline em um cluster do Dataproc.
Antes de começar
- É necessário ter uma instância do Cloud Data Fusion na versão 6.5.0 ou mais recente.
Ativar a reutilização de clusters
É possível reutilizar clusters em um novo perfil de computação ou em um que tenha sido usado em um pipeline implantado.
Ativar a reutilização de clusters em um novo perfil
Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
Clique em Administrador do sistema > Configuração > Perfis de computação do sistema.
Clique em Criar novo perfil.
Escolha o provisionador do Dataproc.
Na janela Criar um perfil para o Dataproc, insira os detalhes do cluster:
- Nos campos Rótulo do perfil e Nome do perfil, insira um nome para
identificar o perfil, por exemplo,
execution_compute-profile
. - No campo Descrição, descreva o objetivo do
perfil, por exemplo,
Profile used for pipeline execution
. - No campo Tempo máximo de inatividade, insira um valor. Para mais informações, consulte Definir o tempo máximo de inatividade.
- Defina o campo Ignorar exclusão de cluster como
True
. Para mais informações, consulte Quando reutilizar clusters. - Opcional: configure outros campos opcionais.
- Clique em Criar.
- Nos campos Rótulo do perfil e Nome do perfil, insira um nome para
identificar o perfil, por exemplo,
Ativar a reutilização de clusters em um pipeline implantado
Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
Clique em Lista.
Clique na guia Implantado e selecione um nome de pipeline. O pipeline implantado é aberto na página Studio na interface da Web do Cloud Data Fusion.
Clique em Configurar.
Na janela Compute config, acesse o perfil escolhido e clique em Customize.
Na janela que abrir, insira os seguintes valores:
- No campo Tempo máximo de inatividade, insira um valor. Para mais informações, consulte Definir o tempo máximo de inatividade.
- Defina Ignorar exclusão de cluster como
True
. Para mais informações, consulte Quando reutilizar clusters.
Clique em Concluído.
A seguir
- Saiba mais sobre como configurar clusters.
- Resolver problemas de exclusão de clusters.