Esta página descreve como reutilizar clusters do Dataproc para as execuções de pipelines no Cloud Data Fusion. Para mais informações, consulte os artigos Quando reutilizar clusters e Execute um pipeline num cluster do Dataproc existente.
Antes de começar
- Tem de ter uma instância do Cloud Data Fusion na versão 6.5.0 ou posterior.
Ative a reutilização de clusters
Pode reutilizar clusters num novo perfil de computação ou num que tenha sido usado num pipeline implementado.
Ative a reutilização de clusters num novo perfil
Aceda à sua instância:
Na Google Cloud consola, aceda à página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.
Clique em Administrador do sistema > Configuração > Perfis de computação do sistema.
Clique em Criar um novo perfil.
Escolha o aprovisionador Dataproc.
Na janela Crie um perfil para o Dataproc, introduza os detalhes sobre o seu cluster:
- Nos campos Etiqueta do perfil e Nome do perfil, introduza um nome para identificar o perfil, por exemplo,
execution_compute-profile
. - No campo Descrição, descreva a finalidade do perfil, por exemplo,
Profile used for pipeline execution
. - No campo Tempo de inatividade máximo, introduza um valor. Para mais informações, consulte o artigo Defina o tempo de inatividade máximo.
- Defina o campo Skip cluster delete como
True
. Para mais informações, consulte o artigo Quando reutilizar clusters. - Opcional: configure outros campos opcionais.
- Clique em Criar.
- Nos campos Etiqueta do perfil e Nome do perfil, introduza um nome para identificar o perfil, por exemplo,
Ative a reutilização de clusters num pipeline implementado
Aceda à sua instância:
Na Google Cloud consola, aceda à página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.
Clique em Lista.
Clique no separador Implementado e clique no nome de um pipeline. O pipeline implementado é aberto na página Studio na interface Web do Cloud Data Fusion.
Clique em Configurar.
Na janela Configuração de cálculo, aceda ao perfil escolhido e clique em Personalizar.
Na janela apresentada, introduza os seguintes valores:
- No campo Tempo de inatividade máximo, introduza um valor. Para mais informações, consulte o artigo Defina o tempo de inatividade máximo.
- Defina a opção Ignorar eliminação de grupos como
True
. Para mais informações, consulte o artigo Quando reutilizar clusters.
Clique em Concluído.
O que se segue?
- Saiba mais sobre a configuração de clusters.
- Resolva problemas de eliminação de clusters.