Esta página foi traduzida pela API Cloud Translation.

Use o Dataflow Prime

O Dataflow Prime é uma plataforma de processamento de dados sem servidor para pipelines do Apache Beam. Baseado no Dataflow, o Dataflow Prime usa uma arquitetura de computação e separada por estado. Nos casos a seguir, o Dataflow Prime pode melhorar a eficiência do pipeline:

Seu pipeline se beneficiaria do escalonamento automático vertical.

O Dataflow Prime é compatível com pipelines em lote e de streaming. Por padrão, o Dataflow Prime usa o Dataflow Shuffle e o Dataflow Runner v2 para pipelines em lote.

Suporte à versão do SDK

O Dataflow Prime é compatível com os seguintes SDKs do Apache Beam:

SDK do Apache Beam para Python versão 2.21.0 ou posterior
SDK do Apache Beam para Java versão 2.30.0 ou posterior
SDK do Apache Beam para Go versão 2.44.0 ou posterior

Para fazer o download do pacote do SDK ou ler as notas da versão, consulte Downloads do Apache Beam.

Recursos do Dataflow Prime

Esta é a lista de recursos compatíveis com o Dataflow Prime para diferentes tipos de pipelines:

Escalonamento automático vertical (memória). É compatível com pipelines de streaming em Python, Java e Go.
Ajuste direito (dicas de recursos). Compatível com pipelines em lote em Python e Java.
Visualizador de jobs. Compatível com pipelines em lote em Python e Java.
Recomendações inteligentes. Compatível com pipelines de streaming e em lote no Python e Java.
Pipelines de dados. Compatível com pipelines de streaming e em lote no Python e Java.

Os recursos Job Visualizer, Smart Recommendations e Data Pipelines também são compatíveis com jobs que não são do Dataflow Prime.

Escalonamento automático vertical

Esse recurso ajusta automaticamente a memória disponível para as VMs de worker do Dataflow para atender às necessidades do pipeline e ajudar a evitar erros de falta de memória. No Dataflow Prime, o escalonamento automático vertical funciona com o escalonamento automático horizontal para escalonar recursos dinamicamente.

Para mais informações, consulte Escalonamento automático vertical.

Ajuste direito

Esse recurso usa dicas de recursos (em inglês), um recurso do Apache Beam. Com as dicas de recursos, é possível especificar requisitos de recursos para todo o pipeline ou para etapas específicas dele. Este recurso permite criar workers personalizados para diferentes etapas de um pipeline. O ajuste correto permite especificar recursos de pipeline para maximizar a eficiência, reduzir os custos operacionais e evitar erros de falta de memória e outros recursos. Ele suporta dicas de recursos de memória e GPU.

O ajuste correto requer o Apache Beam 2.30.0 ou mais recente.

Para mais informações, consulte Ajuste direito.

Visualização de job

Esse recurso permite ver o desempenho de um job do Dataflow e otimizar o desempenho dele, encontrando código ineficiente, incluindo gargalos de carregamento em paralelo. No console Google Cloud , clique em qualquer job do Dataflow na página Jobs para ver os detalhes. Também é possível ver a lista de etapas associadas a cada estágio do pipeline.

Para mais informações, consulte Detalhes da execução.

Recomendações inteligentes

Esse recurso permite otimizar e solucionar problemas do pipeline com base nas recomendações fornecidas na guia Diagnóstico da página de detalhes do job. No console Google Cloud , clique em qualquer job do Dataflow na página Jobs para ver os detalhes.

Para mais informações, consulte Diagnóstico.

Pipelines de dados

Esse recurso permite programar jobs, observar utilizações de recursos, rastrear objetivos de atualização de dados para dados de streaming e otimizar pipelines.

Para mais informações, consulte Como trabalhar com pipelines de dados.

Requisitos de cota e limite

As cotas e os limites são os mesmos para o Dataflow e o Dataflow Prime. Para mais informações, consulte Cotas e limites.

Se você optar por Data Pipelines, haverá outras implicações para cotas e regiões.

Recursos não compatíveis

O Dataflow Prime não é compatível com o seguinte:

Designação de tipos de VM específicos usando a flag --worker_machine_type ou --machine_type para pipelines Python e --workerMachineType para pipelines Java.
Visualizar ou usar o SSH para fazer login em VMs de worker.
Programação flexível de recursos (FlexRS).
Como usar o VPC Service Controls com escalonamento automático vertical. Se você ativar o Dataflow Prime e iniciar um novo job em um perímetro do VPC Service Controls, o job usará o Dataflow Prime sem o escalonamento automático vertical.
NVIDIA Multi-Process Service (MPS).
Pipelines Java que atendem aos seguintes requisitos podem usar as classes MapState e SetState:
- usar o Streaming Engine
- usar as versões 2.58.0 e posteriores do SDK do Apache Beam
- não use o Runner v2

Todas as opções de pipeline não mencionadas explicitamente antes ou na tabela de comparação de recursos funcionam da mesma forma no Dataflow e no Dataflow Prime.

Antes de usar o Dataflow Prime

Para usar o Dataflow Prime, é possível reutilizar o código do pipeline atual e ativar a opção experimental do Dataflow Prime com o Cloud Shell ou programaticamente.

O Dataflow Prime é compatível com versões anteriores de jobs em lote que usam o Dataflow Shuffle e jobs de streaming que usam o Streaming Engine. No entanto, recomendamos testar os pipelines com o Dataflow Prime antes de usá-los em um ambiente de produção.

Se o pipeline de streaming estiver em execução na produção, para usar o Dataflow Prime, execute as seguintes etapas:

Pare o pipeline:
Ative o Dataflow Prime.
Execute novamente o pipeline.

Ativar o Dataflow Prime

Para ativar o Dataflow Prime para um pipeline:

Ative a API Cloud Scaling.

Ativar a API

O Dataflow Prime usa a API de escalonamento automático do Cloud para ajustar a memória dinamicamente.
Ative o Prime nas opções do pipeline.

É possível definir as opções de pipeline de maneira programática ou usando a linha de comando. Para as versões compatíveis do SDK do Apache Beam, ative a seguinte sinalização:

Java

--dataflowServiceOptions=enable_prime

Python

SDK do Apache Beam para Python versão 2.29.0 ou posterior

--dataflow_service_options=enable_prime

SDK do Apache Beam para Python versão 2.21.0 para 2.28.0:

--experiments=enable_prime

Go

--dataflow_service_options=enable_prime