execute um pipeline em um cluster atual do Dataproc

Nesta página, descrevemos como executar um pipeline no Cloud Data Fusion em um cluster atual do Dataproc.

Por padrão, o Cloud Data Fusion cria clusters efêmeros para cada pipeline: cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução do pipeline. Embora esse comportamento economize custos, garantindo que os recursos sejam criados somente quando necessário, esse comportamento padrão pode não ser desejável nos seguintes cenários:

Se o tempo necessário para criar um novo cluster para cada pipeline for adequado para seu caso de uso.
Se a organização exigir que a criação de cluster seja gerenciada centralmente; por exemplo, quando você quiser aplicar políticas específicas a todos os clusters do Dataproc.

Para esses cenários, execute pipelines em um cluster atual seguindo as etapas a seguir.

Antes de começar

Você precisará do seguinte:

Uma instância do Cloud Data Fusion.

Crie uma instância do Cloud Data Fusion
Um cluster atual do Dataproc

Crie um cluster do Dataproc
Se você executar os pipelines no Cloud Data Fusion versão 6.2, use uma imagem do Dataproc mais antiga executada com o Hadoop 2.x (por exemplo, 1.5-debian10) ou faça upgrade para a versão mais recente do Cloud Data Fusion.

Conectar ao cluster atual

Nas versões 6.2.1 e posteriores do Cloud Data Fusion, é possível se conectar a um cluster atual do Dataproc quando você cria um novo perfil do Compute Engine.

Acesse sua instância:
1. No console do Google Cloud, acesse a página do Cloud Data Fusion.
2. Para abrir a instância na interface da Web do Cloud Data Fusion, clique em Instâncias e depois em Ver instância.
  
  Acesse "Instâncias"
Clique em Administrador do sistema.
Clique na guia Configuração.
Clique em Perfis de computação do sistema.
Clique em Criar novo perfil. Uma página de provisionadores será aberta.
Clique em Dataproc atual.
Insira as informações de perfil, cluster e monitoramento.
Clique em Criar.

Configurar o pipeline para usar o perfil personalizado

Acesse sua instância:
1. No console do Google Cloud, acesse a página do Cloud Data Fusion.
2. Para abrir a instância na interface da Web do Cloud Data Fusion, clique em Instâncias e depois em Ver instância.
  
  Acesse "Instâncias"
Acesse o pipeline na página do Studio.
Clique em Configurar.
Clique em Compute config.
Clique no perfil que você criou.

Figura 1: clique no perfil personalizado.
Executar o pipeline. Ele é executado no cluster atual do Dataproc.

A seguir

Saiba mais sobre como configurar clusters.
Solucione problemas de exclusão de clusters.