Esta página foi traduzida pela API Cloud Translation.

Execute um pipeline num cluster do Dataproc existente

Esta página descreve como executar um pipeline no Cloud Data Fusion em relação a um cluster do Dataproc existente.

Por predefinição, o Cloud Data Fusion cria clusters efémeros para cada pipeline: cria um cluster no início da execução do pipeline e, em seguida, elimina-o após a conclusão da execução do pipeline. Embora este comportamento poupe custos, garantindo que os recursos só são criados quando necessário, este comportamento predefinido pode não ser desejável nos seguintes cenários:

Se o tempo necessário para criar um novo cluster para cada pipeline for proibitivo para o seu exemplo de utilização.
Se a sua organização exigir que a criação de clusters seja gerida centralmente; por exemplo, quando quer aplicar determinadas políticas a todos os clusters do Dataproc.

Para estes cenários, em vez disso, execute pipelines num cluster existente com os seguintes passos.

Antes de começar

Precisa do seguinte:

Uma instância do Cloud Data Fusion.

Crie uma instância do Cloud Data Fusion
Um cluster do Dataproc existente.

Crie um cluster do Dataproc
Se executar os seus pipelines na versão 6.2 do Cloud Data Fusion, use uma imagem do Dataproc mais antiga que seja executada com o Hadoop 2.x (por exemplo, 1.5-debian10) ou atualize para a versão mais recente do Cloud Data Fusion.

Efetue a associação ao cluster existente

Nas versões 6.2.1 e posteriores do Cloud Data Fusion, pode estabelecer ligação a um cluster do Dataproc existente quando cria um novo perfil do Compute Engine.

Aceda à sua instância:
1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.
2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.
  
  Aceda a Instâncias
Clique em Administrador do sistema.
Clique no separador Configuração.
Clique em Perfis de computação do sistema.
Clique em Criar um novo perfil. É aberta uma página de aprovisionadores.
Clique em Dataproc existente.
Introduza as informações do perfil, do cluster e de monitorização.
Clique em Criar.

Configure o seu pipeline para usar o perfil personalizado

Aceda à sua instância:
1. Na Google Cloud consola, aceda à página do Cloud Data Fusion.
2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e, de seguida, em Ver instância.
  
  Aceda a Instâncias
Aceda à sua pipeline na página Studio.
Clique em Configurar.
Clique em Compute config.
Clique no perfil que criou.

Figura 1: clique no perfil personalizado
Execute a conduta. É executado no cluster do Dataproc existente.

O que se segue?

Saiba mais sobre a configuração de clusters.
Resolva problemas de eliminação de clusters.

Execute um pipeline num cluster do Dataproc existente Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Efetue a associação ao cluster existente

Configure o seu pipeline para usar o perfil personalizado

O que se segue?

Execute um pipeline num cluster do Dataproc existente