Execute um pipeline num cluster do Dataproc existente

Esta página descreve como executar um pipeline no Cloud Data Fusion em relação a um cluster do Dataproc existente.

Por predefinição, o Cloud Data Fusion cria clusters efémeros para cada pipeline: cria um cluster no início da execução do pipeline e, em seguida, elimina-o após a conclusão da execução do pipeline. Embora este comportamento poupe custos, garantindo que os recursos só são criados quando necessário, este comportamento predefinido pode não ser desejável nos seguintes cenários:

  • Se o tempo necessário para criar um novo cluster para cada pipeline for proibitivo para o seu exemplo de utilização.

  • Se a sua organização exigir que a criação de clusters seja gerida centralmente; por exemplo, quando quer aplicar determinadas políticas a todos os clusters do Dataproc.

Para estes cenários, em vez disso, execute pipelines num cluster existente com os seguintes passos.

Antes de começar

Precisa do seguinte:

Efetue a associação ao cluster existente

Nas versões 6.2.1 e posteriores do Cloud Data Fusion, pode estabelecer ligação a um cluster do Dataproc existente quando cria um novo perfil do Compute Engine.

  1. Aceda à sua instância:

    1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.

    2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.

      Aceda a Instâncias

  2. Clique em Administrador do sistema.

  3. Clique no separador Configuração.

  4. Clique em Perfis de computação do sistema.

  5. Clique em Criar um novo perfil. É aberta uma página de aprovisionadores.

  6. Clique em Dataproc existente.

  7. Introduza as informações do perfil, do cluster e de monitorização.

  8. Clique em Criar.

Configure o seu pipeline para usar o perfil personalizado

  1. Aceda à sua instância:

    1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.

    2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.

      Aceda a Instâncias

  2. Aceda à sua pipeline na página Studio.

  3. Clique em Configurar.

  4. Clique em Compute config.

  5. Clique no perfil que criou.

    Use o perfil personalizado.
    Figura 1: clique no perfil personalizado
  6. Execute a conduta. É executado no cluster do Dataproc existente.

O que se segue?