Configuração do cluster

Nesta página, descrevemos quando usar clusters estáticos do Dataproc no Cloud Data Fusion, nas versões compatíveis e nas configurações de cluster recomendadas.

Quando reutilizar clusters

A partir do Cloud Data Fusion 6.5.0, é possível reutilizar clusters do Dataproc entre execuções para melhorar o tempo de processamento. Você reutiliza os clusters para diminuir o tempo necessário para iniciar jobs quando há vários jobs acontecendo um após o outro. Para mais informações, consulte Como reutilizar clusters do Dataproc.

Quando usar clusters estáticos

Recomendado: tente reutilizar clusters para melhorar o tempo de inicialização antes de tentar usar clusters estáticos.

Por padrão, o Cloud Data Fusion cria clusters temporários para cada pipeline. Ele cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução.

Nas situações a seguir, não use o padrão. Em vez disso, use um cluster estático nos seguintes casos:

  • Quando o tempo necessário para criar um novo cluster para cada pipeline for adequado para seu caso de uso.

  • Quando sua organização exige que a criação de clusters seja gerenciada de forma centralizada. Por exemplo, quando você quer aplicar determinadas políticas a todos os clusters do Dataproc.

Para usar um cluster estático, você precisa definir a seguinte propriedade no cluster do Dataproc:

dataproc:dataproc.conscrypt.provider.enable=false

Para mais informações, consulte Como executar um pipeline em um cluster atual do Dataproc.

Quando usar o escalonamento automático

Recomendado: use o escalonamento automático predefinido do Cloud Data Fusion ou sua própria política de escalonamento automático para automatizar o gerenciamento de recursos do cluster para processamento em pipelines de lote.

O escalonamento automático não é recomendado para redução. Para informações sobre como reduzir custos durante períodos de baixa atividade, consulte os documentos abaixo:

Se você usar o perfil de computação padrão para executar um pipeline grande, talvez ele não seja executado com o desempenho ideal. Também é útil quando você não tem certeza sobre os requisitos adequados de tamanho de cluster para seu pipeline.

No Cloud Data Fusion versão 6.6 e posteriores, é possível usar o escalonamento automático predefinido do Cloud Data Fusion para automatizar o gerenciamento de recursos do cluster. O perfil de computação de escalonamento automático pronto para uso pode ser suficiente para os pipelines, mas se você precisar de mais controle, defina sua própria política de escalonamento automático.

Em qualquer versão compatível, é possível criar sua própria política de escalonamento automático para definir o número máximo de workers. A partir da versão 6.10.0 do Cloud Data Fusion, as instâncias usam o perfil de escalonamento automático do Dataproc por padrão para clusters temporários. Para mais informações sobre como criar uma política de escalonamento automático, consulte Como fazer escalonamento automático de clusters.

Use o escalonamento automático predefinido no Cloud Data Fusion

É possível usar o escalonamento automático predefinido para aumentar os nós de trabalho de acordo com a carga de trabalho do pipeline nas versões 6.6 e posteriores. O escalonamento automático predefinido está disponível apenas para pipelines em lote.

Opção 1: usar o perfil de escalonamento automático do Cloud Data Fusion

Nas instâncias do Cloud Data Fusion em execução na versão 6.6.0 e mais recentes, a instância vem com um perfil chamado Dataproc de escalonamento automático, que é um perfil pronto para uso em que o escalonamento automático predefinido já está ativado. Ele é semelhante ao perfil pré-criado na opção 3, exceto que na versão 6.6.0 e nas instâncias com upgrade da versão 6.6.0, o tipo de máquina do worker é n2.

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na interface da Web do Cloud Data Fusion.
  3. Acesse a página do pipeline implantado clicando em Lista > Implantado.
  4. Clique em Configurar > Compute.
  5. Selecione o perfil chamado Escalonamento automático do Dataproc.

Opção 2: ativar uma política de escalonamento automático predefinida personalizando um perfil

Para ativar o escalonamento automático predefinido no perfil padrão, siga estas etapas:

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na interface da Web do Cloud Data Fusion.
  3. Acesse a página do pipeline implantado clicando em Lista > Implantado.
  4. Clique em Configurar.
  5. Clique em Personalizar no perfil que preferir.
  6. Expanda a seção Número de workers do cluster.
  7. Clique no botão Usar escalonamento automático predefinido.
  8. Clique em Concluído e Salvar.

Quando o pipeline for executado na próxima vez, o job do Dataproc usará a política de escalonamento automático predefinida do Cloud Data Fusion.

Quando você ativa o escalonamento automático predefinido:

  • As propriedades Number of primary workers, Number of secondary workers e Autoscaling policy não são consideradas.
  • A configuração do tipo de máquina do worker é a mesma do perfil escolhido.
  • Desativar a opção Usar escalonamento automático predefinido desativa o escalonamento automático predefinido e executa o comportamento original do perfil.

Argumento de tempo de execução:

O comportamento descrito pode ser alcançado inserindo a chave e o valor a seguir nos argumentos do ambiente de execução:

system.profile.properties.enablePredefinedAutoScaling = true

Opção 3: ativar uma política de escalonamento automático predefinida em um novo perfil de computação

Clique no botão Usar escalonamento automático predefinido ao criar um novo perfil do provisionador do Dataproc. Assim, é possível usar esse perfil em diferentes pipelines e ter mais controle sobre o tipo de máquina do worker e outras propriedades.

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
  2. Clique em Visualizar instância para abrir uma instância na UI do Cloud Data Fusion.
  3. É possível criar o perfil a partir do escopo do sistema ou do escopo do usuário:

    1. (Opcional) Para o escopo do sistema: clique em System Admin > Configuration > System Compute Profiles > Criar novo perfil.
    2. Opcional: para o escopo do usuário, clique em Menu > Administrador de namespace > Criar perfil.

    Uma página de provisionadores será aberta.

  4. Clique em Dataproc.

  5. Expanda a seção Número de workers do cluster.

  6. Clique no botão Usar escalonamento automático predefinido.

  7. Insira os outros detalhes e clique em Criar.

É possível aplicar esse perfil ao pipeline abrindo-o na página Studio, clicando em Configurar > Computação e selecionando o perfil. Você pode definir o perfil como padrão.

Mais detalhes

Na página Configuração do Compute, com uma lista de perfis, há uma coluna Total de núcleos, que tem o número máximo de vCPUs que o perfil pode escalonar, como Up to 84.

Compatibilidade de versões

Problema: a versão do ambiente do Cloud Data Fusion pode não ser compatível com a versão do cluster do Dataproc.

Recomendado: faça upgrade para a versão mais recente do Cloud Data Fusion e use uma das versões compatíveis do Dataproc.

Versões anteriores do Cloud Data Fusion são compatíveis apenas com versões não compatíveis do Dataproc. O Dataproc não oferece atualizações e suporte para clusters criados com estas versões. É possível continuar executando um cluster que foi criado com uma versão não compatível, mas recomendamos substituí-lo por um criado com uma versão compatível.

Versão do Cloud Data Fusion Versão do Dataproc
6.10 e mais recente 2.1 e 2.0 *
6,9 2.1, 2.0, 1.5 *
6,7 a 6,8 2,0 e 1,5 *
6,4 a 6,6 2,0 *, 1,3 **
6,1 a 6,3 1,3**

* As versões 6.4 e posteriores do Cloud Data Fusion são compatíveis com as versões compatíveis do Dataproc. A menos que recursos específicos do SO sejam necessários, a prática recomendada é especificar a versão da imagem do major.minor.
Para especificar a versão do SO usada no cluster do Dataproc, a versão do SO precisa ser compatível com uma das versões do Dataproc compatíveis com o Cloud Data Fusion na tabela anterior.

** As versões 6.1 a 6.6 do Cloud Data Fusion são compatíveis com a versão 1.3 sem suporte do Dataproc.

Práticas recomendadas

Recomendado: ao criar um cluster estático para os pipelines, use as configurações a seguir.

Parâmetros
yarn.nodemanager.delete.debug-delay-sec Retém os registros YARN.
Valor recomendado: 86400 (equivalente a um dia)
yarn.nodemanager.pmem-check-enabled Permite que o YARN verifique os limites de memória física e elimine contêineres se eles ultrapassarem a memória física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled Permite que o YARN verifique se há limites de memória virtual e elimine contêineres se eles ultrapassarem a memória física.
Valor recomendado: false.