Reutilize clusters

Esta página descreve como reutilizar clusters do Dataproc para as execuções de pipelines no Cloud Data Fusion. Para mais informações, consulte os artigos Quando reutilizar clusters e Execute um pipeline num cluster do Dataproc existente.

Antes de começar

  • Tem de ter uma instância do Cloud Data Fusion na versão 6.5.0 ou posterior.

Ative a reutilização de clusters

Pode reutilizar clusters num novo perfil de computação ou num que tenha sido usado num pipeline implementado.

Ative a reutilização de clusters num novo perfil

  1. Aceda à sua instância:

    1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.

    2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.

      Aceda a Instâncias

  2. Clique em Administrador do sistema > Configuração > Perfis de computação do sistema.

  3. Clique em Criar um novo perfil.

  4. Escolha o aprovisionador Dataproc.

  5. Na janela Crie um perfil para o Dataproc, introduza os detalhes sobre o seu cluster:

    1. Nos campos Etiqueta do perfil e Nome do perfil, introduza um nome para identificar o perfil, por exemplo, execution_compute-profile.
    2. No campo Descrição, descreva a finalidade do perfil, por exemplo, Profile used for pipeline execution.
    3. No campo Tempo de inatividade máximo, introduza um valor. Para mais informações, consulte o artigo Defina o tempo de inatividade máximo.
    4. Defina o campo Skip cluster delete como True. Para mais informações, consulte o artigo Quando reutilizar clusters.
    5. Opcional: configure outros campos opcionais.
    6. Clique em Criar.

Ative a reutilização de clusters num pipeline implementado

  1. Aceda à sua instância:

    1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.

    2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.

      Aceda a Instâncias

  2. Clique em Lista.

  3. Clique no separador Implementado e clique no nome de um pipeline. O pipeline implementado é aberto na página Studio na interface Web do Cloud Data Fusion.

  4. Clique em Configurar.

  5. Na janela Configuração de cálculo, aceda ao perfil escolhido e clique em Personalizar.

  6. Na janela apresentada, introduza os seguintes valores:

    1. No campo Tempo de inatividade máximo, introduza um valor. Para mais informações, consulte o artigo Defina o tempo de inatividade máximo.
    2. Defina a opção Ignorar eliminação de grupos como True. Para mais informações, consulte o artigo Quando reutilizar clusters.
  7. Clique em Concluído.

O que se segue?