Preços do Dataflow

Nesta página estão os preços do Dataflow. Para saber os preços de outros produtos, leia a documentação de preços.

Visão geral dos preços

Embora a taxa de preços seja por hora, o uso do serviço do Dataflow será cobrado em incrementos por segundo para cada job. Ele é apresentado em horas (30 minutos são expressos como 0,5 hora, por exemplo) para aplicar o preço por hora ao uso de segundo a segundo. Os workers e jobs podem consumir recursos conforme descrito nas seções a seguir.

Workers e recursos de worker

Cada job do Dataflow usa pelo menos um worker do Dataflow. Há dois tipos deles: em lote e por streaming, que incluem taxas de serviço separadas.

Os workers do Dataflow consomem os recursos a seguir, todos cobrados por segundo.

Os workers em lote e por streaming são recursos especializados que utilizam o Compute Engine. No entanto, um job do Dataflow não gera cobranças relacionadas aos recursos do Compute Engine gerenciados pelo serviço do Dataflow. Na verdade, as taxas de serviço do Dataflow incluem o uso desses recursos.

É possível modificar a contagem de workers padrão de um job. Se você estiver usando o escalonamento automático, especifique o número máximo de workers a serem alocados para um job. Os workers e os respectivos recursos serão adicionados e removidos automaticamente com base na atuação do escalonamento automático.

Além disso, use opções de pipeline para substituir as configurações de recursos padrão que são alocados para cada worker. Esses recursos incluem o tipo de máquina, tipo de disco e tamanho do disco.

Serviços do Dataflow

A operação do Dataflow Shuffle particiona e agrupa os dados por chave de maneira escalonável, eficiente e tolerante a falhas. Por padrão, o Dataflow usa uma implementação de embaralhamento que é executada totalmente em máquinas virtuais do worker e consome CPU, memória e armazenamento em disco permanente do worker.

O Dataflow também oferece um recurso opcional altamente escalonável, o Dataflow Shuffle. Ele está disponível apenas para pipelines de lote e embaralha os dados fora dos workers. O Shuffle é cobrado pelo volume de dados processados. Especifique o parâmetro de pipeline do Shuffle para instruir o Dataflow a usar o Shuffle.

De maneira semelhante ao Shuffle, o Dataflow Streaming Engine migra o embaralhamento do streaming e o processamento do estado das VMs de worker para o back-end do serviço do Dataflow. Especifique o parâmetro de pipeline do Streaming Engine para instruir o Dataflow a usar o Streaming Engine nos pipelines de streaming. O uso do Streaming Engine é cobrado pelo volume dos dados de streaming processados, o que depende do volume de dados processados em seu pipeline de streaming e da complexidade e do número de estágios de pipeline. Alguns exemplos do que conta como um byte processado: fluxos de entrada de fontes de dados, fluxos de dados de um estágio combinado do pipeline para outro estágio combinado, fluxos de dados persistidos em estados definidos pelo usuário ou usados com janelas e mensagens de saída para coletores de dados, como o Pub/Sub e o BigQuery.

O Dataflow também oferece uma opção de preço com desconto para CPU e memória no processamento em lote. O Flexible Resource Scheduling (FlexRS) combina VMs preemptivas e comuns em um único pool de workers do Dataflow. Isso oferece aos usuários acesso a recursos de processamento mais baratos. O FlexRS também atrasa a execução de um job em lote do Dataflow em uma janela de seis horas para identificar o melhor momento para iniciar o job com base nos recursos disponíveis. O Dataflow utiliza uma combinação de workers para executar um job do FlexRS, mas a cobrança é feita por uma taxa de desconto uniforme em comparação com os preços comuns do Dataflow, seja qual for o tipo de worker. Especifique o parâmetro do FlexRS para instruir o Dataflow a usar o FlexRS nos pipelines de lote com escalonamento automático.

Recursos adicionais do job

Além do uso de recursos do worker, um job pode consumir os seguintes recursos, cada um faturado de acordo com seus preços, incluindo, mas não se limitando a:

Preços em detalhes

As próximas versões do Dataflow poderão ter taxas de serviço diferentes e/ou o agrupamento de serviços relacionados.

Consulte a página Regiões e zonas do Compute Engine para mais informações sobre as regiões disponíveis e as respectivas zonas.

1 Padrões do worker em lote: 1 vCPU, 3.75 GB de memória e disco permanente de 250 GB

2 Padrões do worker no FlexRS: 2 vCPUs, 7,50 GB de memória, disco permanente de 25 GB por worker, com um mínimo de dois workers

3 Padrões do worker no streaming: 4 vCPUs, 15 GB de memória, disco permanente de 420 GB

4 No momento, o Cloud Dataflow Shuffle está disponível para pipelines de lote nas regiões a seguir:

  • us-west1 (Oregon)
  • us-west2 (Los Angeles)
  • us-central1 (Iowa)
  • us-east1 (Carolina do Sul)
  • us-east4 (Norte da Virgínia)
  • northamerica-northeast1 (Montreal)
  • southamerica-east1 (São Paulo)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Holanda)
  • europe-west6 (Zurique)
  • europe-west3 (Frankfurt)
  • asia-south1 (Mumbai)
  • asia-southeast1 (Singapura)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tóquio)
  • australia-southeast1 (Sydney)

Ele estará disponível em outras regiões no futuro.

Os preços do Dataflow Shuffle são baseados nos ajustes de volume aplicados à quantidade de dados processados durante operações de leitura e gravação no embaralhamento do seu conjunto de dados. Para mais informações, consulte detalhes de preços do Dataflow Shuffle.

5 O Dataflow Streaming Engine usa a unidade de preço de dados de streaming processados. O Streaming Engine está disponível nas regiões a seguir:

  • us-west1 (Oregon)
  • us-west2 (Los Angeles)
  • us-central1 (Iowa)
  • us-east1 (Carolina do Sul)
  • us-east4 (Norte da Virgínia)
  • northamerica-northeast1 (Montreal)
  • southamerica-east1 (São Paulo)
  • europe-west2 (Londres)
  • europe-west1 (Bélgica)
  • europe-west4 (Holanda)
  • europe-west6 (Zurique)
  • europe-west3 (Frankfurt)
  • asia-south1 (Mumbai)
  • asia-southeast1 (Singapura)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tóquio)
  • australia-southeast1 (Sydney)
Ele será disponibilizado em outras regiões no futuro.

Detalhes de preços do Dataflow Shuffle

As cobranças são calculadas por cada job do Dataflow, por meio de ajustes de volume aplicados ao total de dados processados durante as operações do Dataflow Shuffle. O faturamento real dos dados processados no Dataflow Shuffle equivale ao preço total cobrado por uma quantidade menor de dados, e não ao total processado por um job do Dataflow. Essa diferença resulta em uma métrica de dados faturável menor do que a métrica de dados totais do Dataflow Shuffle.

Na tabela a seguir, explicamos como esses ajustes são aplicados:

Dados processados por um job Ajuste de serviço
Primeiros 250 GB Redução de 75%
Próximos 4.870 GB Redução de 50%
Dados restantes em 5.120 GB (5 TB) nenhuma

Por exemplo, se o pipeline resultar em 1.024 GB (1 TB) de dados processados totais do Dataflow Shuffle, o valor faturável é calculado da seguinte forma: 250 GB * 25% + 774 GB * 50% = 449,5 GB * taxa de processamentos de dados do Dataflow Shuffle. Se o pipeline resultar em 10.240 GB (10 TB) de dados processados totais do Dataflow Shuffle, o valor faturável de dados será 250 GB * 25% + 4.870 GB * 50% + 5.120 GB = 7.617,5 GB.

Como ver o uso

Para ver os recursos totais de vCPU, memória e disco permanente associados a um job, acesse o Console do Google Cloud ou use a ferramenta de linha de comando gcloud. É possível acompanhar as métricas reais e cobráveis dos dados embaralhados e de streaming processados na interface de monitoramento do Dataflow. É possível usar os dados embaralhados processados reais para avaliar o desempenho de seu pipeline e os dados embaralhados processados sujeitos à cobrança para determinar os custos do job do Dataflow. Para dados de streaming processados, as métricas reais e cobráveis são as mesmas.

Calculadora de preços

Use a calculadora de preços do Google Cloud para entender o cálculo de sua conta.