Preços do Dataflow

Nesta página, descrevemos os preços do Dataflow. Para ver os preços de outros produtos, leia a documentação de preços.

Para saber como economizar 40% com um compromisso de três anos ou 20% com um compromisso de um ano, confira nossa página de descontos por compromisso de uso (CUDs).

Aspectos gerais

O uso do Dataflow é cobrado pelos recursos que seus jobs usam. Dependendo do modelo de preços que você usa, os recursos são medidos e cobrados de forma diferente.

Recursos de computação do Dataflow	Recursos de computação do Dataflow Prime
CPU e memória do worker (em lote, streaming e FlexRS) Dados processados do Dataflow Shuffle (em lote e FlexRS) Unidades de computação do Streaming Engine ou dados processados do Streaming Engine legados (somente streaming)	Unidades de computação de dados (DCUs) (lote e streaming)

Recursos de computação do Dataflow

Recursos de computação do Dataflow Prime

CPU e memória do worker (em lote, streaming e FlexRS)
Dados processados do Dataflow Shuffle (em lote e FlexRS)
Unidades de computação do Streaming Engine ou dados processados do Streaming Engine legados (somente streaming)

Unidades de computação de dados (DCUs)

(lote e streaming)

Outros recursos do Dataflow faturados para todos os jobs incluem disco permanente, GPUs e snapshots.

Recursos de outros serviços podem ser usados para o job do Dataflow. Os serviços usados com o Dataflow podem incluir BigQuery, Pub/Sub, Cloud Storage e Cloud Logging, entre outros.

Embora a taxa de preços seja por hora, o uso do Dataflow é faturado em incrementos por segundo para cada job. O uso é apresentado em horas para aplicar o preço por hora ao uso de segundo a segundo. Por exemplo, 30 minutos são 0,5 hora. Os workers e jobs consomem recursos conforme descrito nas seções a seguir.

As próximas versões do Dataflow poderão ter taxas de serviço diferentes ou o agrupamento de serviços relacionados.

Recursos de computação do Dataflow

O faturamento do Dataflow para recursos de computação inclui os seguintes componentes:

Para mais informações sobre as regiões disponíveis e as respectivas zonas, consulte a página Regiões e zonas do Compute Engine.

CPU e memória do worker

Cada job do Dataflow usa pelo menos um worker do Dataflow. O serviço Dataflow oferece dois tipos de workers: em lote e por streaming. Os workers em lote e por streaming têm taxas de serviço separadas.

Os workers do Dataflow consomem os recursos a seguir, todos faturados por segundo:

CPU
Memória

Os workers em lote e por streaming são recursos especializados que usam o Compute Engine. No entanto, um job do Dataflow não emite faturamento do Compute Engine para recursos do Compute Engine gerenciados pelo serviço do Dataflow. Nesse caso, as taxas de serviço do Dataflow incluem o uso desses recursos.

É possível modificar a contagem de workers padrão de um job. Se você estiver usando o escalonamento automático, é possível especificar o número máximo de workers a serem alocados para um job. Os workers e os respectivos recursos são adicionados e removidos automaticamente com base na atuação do escalonamento automático.

Além disso, é possível usar as opções de pipeline para modificar as configurações de recursos padrão (tipo de máquina, tipo de disco e tamanho do disco) que são alocados a cada worker e usam GPUs.

FlexRS

O Dataflow oferece uma opção de preço com desconto para CPU e memória no processamento em lote. O Flexible Resource Scheduling (FlexRS) combina VMs preemptivas e comuns em um único pool de workers do Dataflow. Isso oferece aos usuários acesso a recursos de processamento mais baratos. O FlexRS também atrasa a execução de um job em lote do Dataflow em uma janela de seis horas para identificar o melhor momento para iniciar o job com base nos recursos disponíveis.

Embora o Dataflow use uma combinação de workers para executar um job do FlexRS, será faturada uma taxa de desconto uniforme de cerca de 40% no custo de CPU e memória em comparação com os preços normais do Dataflow, seja qual for o tipo de worker. É possível instruir o Dataflow a usar o FlexRS nos pipelines em lote com escalonamento automático especificando o parâmetro do FlexRS.

Dados processados do Dataflow Shuffle

Para pipelines em lote, o Dataflow oferece um recurso altamente escalonável, o Dataflow Shuffle, que embaralha os dados fora dos workers. Para mais informações, consulte Dataflow Shuffle.

O Dataflow Shuffle é cobrado pelo volume de dados processados durante o embaralhamento.

Preços do Streaming Engine

Para pipelines de streaming, o Dataflow Streaming Engine move o embaralhamento de streaming e o processamento de estado das VMs de worker para o back-end do serviço do Dataflow. Para mais informações, consulte Streaming Engine.

Unidades de computação do Streaming Engine

Com o faturamento baseado em recursos, os recursos do Streaming Engine são medidos em unidades de computação do Streaming Engine. O Dataflow mede os recursos do Streaming Engine que cada job usa e depois fatura com base no total de recursos usados por esse job. Para ativar o faturamento baseado em recursos para seu job, consulte Usar o faturamento baseado em recursos. Quando você usa o faturamento baseado em recursos, os descontos atuais são aplicados automaticamente.

Quando você usa o Dataflow Prime com faturamento baseado em recursos, a cobrança é feita com base no total de recursos que cada job usa, mas a SKU da Unidade de computação de dados (DCU) é usada em vez da SKU da Unidade de computação do Streaming Engine.

Dados processados do Streaming Engine (legado)

O Dataflow continua a oferecer suporte ao faturamento legado de dados processados. A menos que você ative o faturamento baseado em recursos, os jobs serão cobrados pelo faturamento de dados processados.

O faturamento de dados processados do Streaming Engine mede o uso pelo volume de dados de streaming processados, que depende dos seguintes fatores:

O volume de dados ingeridos no pipeline de streaming
A complexidade do pipeline
O número de estágios do pipeline com operação de embaralhamento ou com DoFns com estado

Exemplos do que conta como um byte processado incluem os seguintes itens:

Fluxos de entrada de fontes de dados
Fluxos de dados de um estágio de pipeline fundido para outro estágio fundido
Fluxos de dados persistidos no estado definido pelo usuário ou usados para janelas
Enviar mensagens para coletores de dados, como o Pub/Sub ou o BigQuery

Recursos de computação do Dataflow

Preços dos recursos de computação do Dataflow: lote

A tabela a seguir contém detalhes de preços para recursos de worker e dados de embaralhamento processados para o Batch.

Tipo de job	Padrão (USD)
CPU	US$ 0,056 / 1 hour
Memória	US$ 0,003557 / 1 gibibyte hour
Dados processados durante o embaralhamento	US$ 0,011 / 1 gibibyte

Padrões do worker em lote: 1 vCPU, 3,75 GB de memória, 250 GB de disco permanente se o Dataflow Shuffle não for usado, 25 GB de disco permanente se o Dataflow Shuffle for usado

Preços dos recursos de computação do Dataflow: FlexRS

A tabela a seguir contém detalhes de preços para recursos de worker e dados de embaralhamento processados para jobs do FlexRS.

Recurso	Padrão (USD)
CPU	US$ 0,0336 / 1 hour
Memória	US$ 0,0021342 / 1 gibibyte hour
Dados processados durante o embaralhamento	US$ 0,011 / 1 gibibyte

Padrões do worker no FlexRS: 2 vCPUs, memória de 7,50 GB, disco permanente de 25 GB por worker, com um mínimo de dois workers

Preços dos recursos de computação do Dataflow – streaming

A tabela a seguir contém detalhes de preços para recursos de worker, dados processados do Streaming Engine (legado) e unidades de computação do Streaming Engine para jobs de streaming.

Mostrar opções de desconto

Recurso	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
CPU	US$ 0,069 / 1 hour	US$ 0,0552 / 1 hour	US$ 0,0414 / 1 hour
Memória	US$ 0,003557 / 1 gibibyte hour	US$ 0,0028456 / 1 gibibyte hour	US$ 0,0021342 / 1 gibibyte hour
Dados processados durante o embaralhamento	US$ 0,018 / 1 gibibyte	US$ 0,0144 / 1 gibibyte	US$ 0,0108 / 1 gibibyte
Streaming Engine	US$ 0,089 / 1 count	US$ 0,0712 / 1 count	US$ 0,0534 / 1 count

^* Cada modelo de consumo tem um ID exclusivo. É necessário informar que você tem interesse para se qualificar para descontos do modelo de consumo. Clique aqui para saber mais.

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

³Padrões do worker no streaming: 4 vCPUs, 15 GB de memória, disco permanente de 400 GB se o Streaming Engine não for usado, disco permanente de 30 GB se o Streaming Engine for usado. O serviço do Dataflow está limitado atualmente a 15 discos permanentes por instância de worker na execução de um job de streaming. A proporção de 1:1 entre workers e discos é a cota mínima de recursos.

⁴Os preços do Dataflow Shuffle são baseados nos ajustes de volume aplicados à quantidade de dados processados durante operações de leitura e gravação no embaralhamento do seu conjunto de dados. Para mais informações, consulte os detalhes de preços do Dataflow Shuffle. O preço do Dataflow Shuffle não se aplica a jobs do Streaming Engine que usam faturamento baseado em recursos.

⁵ Unidades de computação do Streaming Engine: para jobs de streaming que usam o Streaming Engine e o modelo de faturamento baseado em recursos. Esses jobs não são cobrados pelos dados processados durante o embaralhamento.

Ajustes de volume para dados processados do Dataflow Shuffle

As cobranças são calculadas por cada job do Dataflow, por meio de ajustes de volume aplicados ao total de dados processados durante as operações do Dataflow Shuffle. O faturamento real dos dados processados no Dataflow Shuffle equivale ao preço total cobrado por uma quantidade menor de dados, e não ao total processado por um job do Dataflow. Essa diferença resulta em uma métrica de dados de embaralhamento faturáveis processados menor do que a métrica de dados de embaralhamento totais processados.

Na tabela a seguir, explicamos como esses ajustes são aplicados:

Dados processados do Dataflow Shuffle	Ajuste de faturamento
Primeiros 250 GiB	Redução de 75%
Próximos 4.870 GiB	Redução de 50%
Dados restantes em 5.120 GiB (5 TiB)	nenhum

Por exemplo, se o pipeline resultar em 1.024 GiB (1 TiB) de dados processados totais do Dataflow Shuffle, o valor faturável é calculado da seguinte forma:

250 GiB * 25% + 774 GiB * 50% = 449,5 GiB * taxa de processamento de dados do Dataflow Shuffle regional

Se o pipeline resultar em 10.240 GiB (10 TiB) de dados processados totais do Dataflow Shuffle, o valor faturável de dados será:

250 GiB * 25% + 4.870 GiB * 50% + 5.120 GiB = 7.617,5 GiB

Preços dos recursos de computação do Dataflow Prime

O Dataflow Prime é uma plataforma de processamento de dados que se baseia no Dataflow para trazer melhorias na utilização de recursos e no diagnóstico distribuído.

Os recursos de computação usados por um job do Dataflow Prime são cobrados pelo número de unidades de computação de dados (DCUs). As DCUs representam os recursos de computação alocados para executar o pipeline. Outros recursos do Dataflow usados pelos jobs do Dataflow Prime, como disco permanente, GPUs e snapshots, são cobrados separadamente.

Para mais informações sobre as regiões disponíveis e as respectivas zonas, consulte a página Regiões e zonas do Compute Engine.

Unidade de computação de dados

Uma unidade de computação de dados (DCU, na sigla em inglês) é uma métrica do Dataflow que rastreia a quantidade de recursos de computação consumidos pelos jobs. Os recursos rastreados pelas DCUs incluem vCPU, memória, dados do Dataflow Shuffle processados (para jobs em lote) e dados do Streaming Engine processados (para jobs de streaming). Jobs que consomem mais recursos têm mais uso de DCU em comparação com jobs que consomem menos recursos. Uma DCU é comparável aos recursos usados por um job do Dataflow executado por uma hora em um worker de 1 vCPU e 4 GB.

Faturamento da unidade de computação de dados

Você é cobrado pelo número total de DCUs consumidas pelo job. O preço de uma única DCU varia de acordo com o tipo de job: lote ou streaming. Quando você usa o Dataflow Prime com faturamento baseado em recursos, a cobrança é feita com base no total de recursos usados, em vez de bytes processados.

Mostrar opções de desconto

Tipo de job	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
Lote	US$ 0,06 / 1 count	-	-
Streaming	US$ 0,089 / 1 count	US$ 0,0712 / 1 count	US$ 0,0534 / 1 count

^* Cada modelo de consumo tem um ID exclusivo. É necessário informar que você tem interesse para se qualificar para descontos do modelo de consumo. Clique aqui para saber mais.

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

Otimizar o uso da unidade de computação de dados

Não é possível definir o número de DCUs dos jobs. As DCUs são contadas pelo Dataflow Prime. No entanto, você pode reduzir o número de DCUs consumidas gerenciando os seguintes aspectos do job:

Reduzir o consumo de memória
Como reduzir a quantidade de dados processados em etapas de embaralhamento usando filtros, combinadores e codificadores eficientes

Para identificar essas otimizações, use a interface de monitoramento do Dataflow e a interface de detalhes de execução.

Qual é a diferença entre os preços do Dataflow Prime e do Dataflow?

No Dataflow, a cobrança é feita pelos diferentes recursos que seus jobs consomem, como vCPUs, memória, disco permanente e a quantidade de dados processados pelo Dataflow Shuffle ou pelo Streaming Engine.

As unidades de computação de dados consolidam todos os recursos, exceto o armazenamento, em uma única unidade de medição. Você recebe cobranças pelos recursos de disco permanente e pelo número de DCUs consumidas com base no tipo de job, em lote ou streaming. Para mais informações, consulte Como usar o Dataflow Prime.

O que acontece com os jobs atuais que usam o modelo de preços do Dataflow?

Os jobs em lote e de streaming atuais continuarão a ser faturados pelo modelo do Dataflow. Quando você atualiza seus jobs para usar o Dataflow Prime, eles passam a usar o modelo de preços do Dataflow Prime, em que são cobrados pelos recursos de disco permanente e pelas DCUs consumidas.

Outros recursos do Dataflow

O armazenamento, as GPUs, os snapshots e outros recursos são cobrados da mesma forma no Dataflow e no Dataflow Prime.

Preços dos recursos de armazenamento

Os recursos de armazenamento são faturados com a mesma taxa para jobs de streaming, lote e FlexRS. Você pode usar as opções de pipeline para mudar o tamanho ou o tipo de disco padrão. O Dataflow Prime cobra o disco permanente separadamente com base nos preços da tabela a seguir.

Item	Padrão (USD)
Armazenamento — Disco permanente padrão	US$ 0,000054 / 1 gibibyte hour
Armazenamento — Disco permanente SSD	US$ 0,000298 / 1 gibibyte hour

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

O serviço do Dataflow está limitado atualmente a 15 discos permanentes por instância de worker na execução de um job de streaming. Cada disco permanente é local em relação a uma máquina virtual individual do Compute Engine. A proporção de 1:1 entre workers e discos é a cota mínima de recursos.

Os jobs que usam o Streaming Engine usam discos de inicialização de 30 GB. Os jobs que usam o Dataflow Shuffle usam discos de inicialização de 25 GB. Para jobs que não usam essas ofertas, o tamanho padrão de cada disco permanente é 250 GB no modo de lote e 400 GB no modo de streaming.

O uso do Compute Engine é baseado no número médio de workers e o uso de discos permanentes é baseado no valor exato de --maxNumWorkers. Os discos permanentes são redistribuídos de modo que cada worker tenha um número igual de discos anexados.

Preços de recursos de GPU

Os recursos de GPU são faturados com a mesma taxa para jobs de streaming e em lote. No momento, a FlexRS não oferece suporte às GPUs. Para informações sobre regiões e zonas disponíveis para GPUs, consulte Disponibilidade de regiões e zonas de GPU na documentação do Compute Engine.

Item	Padrão (USD)
GPU NVIDIA® Tesla® P100	US$ 1,752 / 1 hour
GPU NVIDIA® Tesla® V100	US$ 2,976 / 1 hour
GPU NVIDIA® Tesla® T4	US$ 0,42 / 1 hour
GPU NVIDIA® Tesla® P4	US$ 0,72 / 1 hour
GPU NVIDIA® Tesla® L4	US$ 0,672048 / 1 hour
GPU NVIDIA® Tesla® A100 (40 GB)	US$ 3,72 / 1 hour
GPU NVIDIA® Tesla® A100 (80 GB)	US$ 4,713696 / 1 hour
GPU NVIDIA ® Tesla ® H100	US$ 11,7558607 / 1 hour
GPU NVIDIA ® Tesla ® H100 Mega	US$ 12,4131309 / 1 hour

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

Preços dos recursos de TPU

Os recursos de TPU são faturados com a mesma taxa para jobs de streaming e em lote. Como o preço do Dataflow para TPUs inclui o custo das TPUs, vCPUs e memória, os workers de TPU não geram cobranças separadas de vCPU e memória no Dataflow. Além disso, a FlexRS não oferece suporte a TPUs no momento. Para informações sobre regiões e zonas disponíveis para TPUs, consulte Regiões e zonas de TPU na documentação do Compute Engine. Para usar as TPUs no Dataflow, entre em contato com sua equipe de conta.

Item	Padrão (USD)
TPU V5E	US$ 1,44 / 1 hour
TPU V5P	US$ 5,04 / 1 hour
TPU V6E	US$ 3,24 / 1 hour

Prêmios de gerenciamento para reservas de GPU/TPU

Quando você usa reservas de GPU ou TPU do Compute Engine especificamente direcionadas com o Dataflow, a cobrança é feita de acordo com os preços do Compute Engine, incluindo os descontos por uso contínuo (CUDs) aplicáveis. Você também recebe uma cobrança de prêmio de gerenciamento pelos recursos de computação consumidos no Dataflow. Para mais detalhes, consulte Usar as reservas do Compute Engine com o Dataflow.

A tabela abaixo contém os prêmios de gerenciamento para recursos de computação consumidos ao usar reservas de GPU ou TPU do Compute Engine no Dataflow. Os descontos por compromisso de uso (CUDs) do Dataflow Streaming só se aplicam aos prêmios de gerenciamento de CPU e memória para jobs de streaming.

Prêmios de gerenciamento para reservas de GPU/TPU – streaming

Mostrar opções de desconto

Recurso	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
CPU Premium	US$ 0,0178405 / 1 hour	US$ 0,0142724 / 1 hour	US$ 0,0107043 / 1 hour
Memory Premium	US$ 0,0020901 / 1 gibibyte hour	US$ 0,00167208 / 1 gibibyte hour	US$ 0,00125406 / 1 gibibyte hour

^* Cada modelo de consumo tem um ID exclusivo. É necessário informar que você tem interesse para se qualificar para descontos do modelo de consumo. Clique aqui para saber mais.

Prêmios de gerenciamento para reservas de GPU/TPU: em lote, GPU e TPU

Recurso	Preço (US$)
CPU Premium do Batch	US$ 0,0111508 / 1 hour
Batch Memory Premium	US$ 0,0013063 / 1 gibibyte hour
GPU V100 Premium	US$ 0,496 / 1 hour
GPU P100 Premium	US$ 0,292 / 1 hour
GPU T4 Premium	US$ 0,07 / 1 hour
GPU L4 Premium	US$ 0,112008 / 1 hour
GPU A100 40 GB Premium	US$ 0,5867816 / 1 hour
GPU A100 de 80 GB Premium	US$ 0,785616 / 1 hour
GPU H100 Premium	US$ 1,9593101 / 1 hour
GPU H100 Mega Premium	US$ 2,0688551 / 1 hour
TPU V5E Premium	US$ 0,24 / 1 hour
TPU V5P Premium	US$ 0,84 / 1 hour
TPU V6E Premium	US$ 0,54 / 1 hour

Snapshots

Para ajudar a gerenciar a confiabilidade dos pipelines de streaming, é possível usar snapshots para salvar e restaurar o estado do pipeline. O uso do snapshot é cobrado pelo volume dos dados armazenados, que dependem dos seguintes fatores:

O volume de dados ingeridos no pipeline de streaming
Sua lógica de janelas
O número de estágios do pipeline

É possível capturar um snapshot do job de streaming usando o console do Dataflow ou a CLI do Google Cloud. Não há custo extra para criar um job a partir do snapshot para restaurar o estado do pipeline. Para mais informações, consulte Como usar snapshots do Dataflow.

Preços de snapshots

Item	Padrão (USD)
Armazenamento	US$ 0,000205479 / 1 gibibyte hour

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

VM confidencial

A VM confidencial para Dataflow criptografa dados em uso em VMs de worker do Compute Engine. Para mais detalhes, consulte Visão geral de VMs confidenciais.

O uso de VMs confidenciais no Dataflow gera custos fixos adicionais por vCPU e por GB.

Preços da VM confidencial

Os preços são globais e não mudam com base na região do Google Cloud.

Item	Padrão (USD)
CPU	US$ 0,005479 / 1 hour
Memória	US$ 0,0007342 / 1 gibibyte hour

Recursos que não são do Dataflow

Além do uso do Dataflow, um job pode consumir os seguintes recursos, cada um faturado de acordo com os respectivos preços, incluindo, entre outros:

Cloud Storage: os jobs do Dataflow usam o Cloud Storage para armazenar arquivos temporários durante a execução do pipeline. Para evitar cobranças por custos desnecessários de armazenamento, desative o recurso de exclusão reversível nos buckets que os jobs do Dataflow usam para armazenamento temporário. Para mais informações, consulte Remover uma política de exclusão reversível de um bucket.
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging: é possível rotear registros para outros destinos ou excluir registros da ingestão. Para informações sobre como otimizar o volume de registros para jobs do Dataflow, consulte Como controlar o volume de registros do Dataflow.

Ver o uso de recursos

Para visualizar os recursos totais de vCPU, memória e disco permanente associados a um job, acesse o painel Informações do job em Métricas de recursos. É possível rastrear as seguintes métricas na interface de monitoramento do Dataflow:

Tempo total de vCPU
Tempo total de uso da memória
Tempo total de uso do disco permanente
Total de dados de streaming processados
Total de dados embaralhados processados
Dados embaralhados processados faturáveis

É possível usar a métrica Total de dados embaralhados processados para avaliar a performance do pipeline e a métrica Total de dados embaralhados processados sujeitos a cobrança para determinar os custos do job do Dataflow.

No Dataflow Prime, é possível visualizar o número total de DCUs consumidas por um job no painel Informações do job em Métricas de recursos.

Calculadora de preços

Use a calculadora de preços do Google Cloud para entender o cálculo da fatura.

Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

A seguir

Leia a documentação do Dataflow.
Comece a usar o Dataflow.
Use a calculadora de preços.
Saiba mais sobre soluções e casos de uso do Dataflow.

Solicite uma cotação personalizada

Com o sistema de pagamento por uso do Google Cloud, você paga apenas pelos serviços que usa. Fale com nossa equipe de vendas e receba uma cotação personalizada para sua organização.