Esta página foi traduzida pela API Cloud Translation.

Executar um pipeline em um cluster atual do Dataproc

Nesta página, descrevemos como executar um pipeline no Cloud Data Fusion em um cluster atual do Dataproc.

Por padrão, o Cloud Data Fusion cria clusters efêmeros para cada pipeline: cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução do pipeline. Embora esse comportamento economize custos, garantindo que os recursos sejam criados somente quando necessário, esse comportamento padrão pode não ser desejável nos seguintes cenários:

Se o tempo necessário para criar um novo cluster para cada pipeline for adequado para seu caso de uso.
Se a organização exigir que a criação de cluster seja gerenciada centralmente; por exemplo, quando você quiser aplicar políticas específicas a todos os clusters do Dataproc.

Para esses cenários, execute pipelines em um cluster atual seguindo as etapas a seguir.

Antes de começar

Você precisará do seguinte:

Uma instância do Cloud Data Fusion.

Crie uma instância do Cloud Data Fusion
Um cluster atual do Dataproc

Criar um cluster de Dataproc
Se você executar seus pipelines no Cloud Data Fusion versão 6.2, use uma imagem do Dataproc mais antiga que seja executada com o Hadoop 2.x (por exemplo, 1.5-debian10) ou faça upgrade para a versão mais recente do Cloud Data Fusion.

Conectar ao cluster

Nas versões 6.2.1 e posteriores do Cloud Data Fusion, é possível se conectar a um cluster atual do Dataproc quando você cria um novo perfil do Compute Engine.

Acesse sua instância:
1. No console Google Cloud , acesse a página do Cloud Data Fusion.
2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
  
  Acesse "Instâncias"
Clique em Administrador do sistema.
Clique na guia Configuração.
Clique em Perfis de computação do sistema.
Clique em Criar novo perfil. Uma página de provisionadores será aberta.
Clique em Dataproc atual.
Insira as informações do perfil, do cluster e de monitoramento.
Clique em Criar.

Configurar o pipeline para usar o perfil personalizado

Acesse sua instância:
1. No console Google Cloud , acesse a página do Cloud Data Fusion.
2. Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
  
  Acesse "Instâncias"
Acesse o pipeline na página Studio.
Clique em Configurar.
Clique em Compute config.
Clique no perfil que você criou.

Figura 1: clique no perfil personalizado
Executar o pipeline. Ele é executado no cluster atual do Dataproc.

A seguir

Saiba mais sobre como configurar clusters.
Resolver problemas de exclusão de clusters.

Executar um pipeline em um cluster atual do Dataproc Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Conectar ao cluster

Configurar o pipeline para usar o perfil personalizado

A seguir

Executar um pipeline em um cluster atual do Dataproc