Preços do Dataflow
Nesta página estão os preços do Dataflow. Para saber os preços de outros produtos, leia a documentação de preços.
Para saber como economizar 40% com um compromisso de três anos ou 20% com um compromisso de um ano, confira nossa página de descontos por compromisso de uso (CUDs).
Visão geral
O uso do Dataflow é cobrado pelos recursos que seus jobs usam. Dependendo do modelo de preços que você usa, os recursos são medidos e faturados de maneiras diferentes.
Recursos de computação do Dataflow | Recursos de computação do Dataflow Prime |
|
Unidades de computação de dados (DCUs) (lote e streaming) |
Outros recursos do Dataflow faturados para todos os jobs incluem Persistent Disk, GPUs e snapshots.
Recursos de outros serviços podem ser usados para o job do Dataflow. Os serviços usados com o Dataflow podem incluir o BigQuery, o Pub/Sub, o Cloud Storage e o Cloud Logging, entre outros.
Embora a taxa de preços seja por hora, o uso do Dataflow será faturado em incrementos por segundo para cada job. Ele é apresentado em horas para aplicar o preço por hora ao uso de segundo a segundo. Por exemplo, 30 minutos são 0,5 hora. Os workers e jobs consomem recursos conforme descrito nas seções a seguir.
As próximas versões do Dataflow podem ter taxas de serviço diferentes ou agrupamento de serviços relacionados.
Recursos de computação do Dataflow
O faturamento do Dataflow para recursos de computação inclui os seguintes componentes:
- CPU e memória do worker
- Dados do Dataflow Shuffle processados para cargas de trabalho em lote
- Unidades de computação do Streaming Engine
- Dados processados do Streaming Engine
Para mais informações sobre as regiões disponíveis e as respectivas zonas, consulte a página Regiões e zonas do Compute Engine.
CPU e memória do worker
Cada job do Dataflow usa pelo menos um worker do Dataflow. Há dois tipos deles: em lote e por streaming, Os workers em lote e por streaming têm taxas de serviço separadas.
Os workers do Dataflow consomem os recursos a seguir, todos faturados por segundo:
- CPU
- Memória
Os workers em lote e por streaming são recursos especializados que utilizam o Compute Engine. No entanto, um job do Dataflow não gera cobranças relacionadas aos recursos do Compute Engine gerenciados pelo serviço do Dataflow. Na verdade, as taxas de serviço do Dataflow incluem o uso desses recursos.
É possível modificar a contagem de workers padrão de um job. Se você estiver usando o escalonamento automático, especifique o número máximo de workers a serem alocados para um job. Os workers e os respectivos recursos são adicionados e removidos automaticamente com base na atuação do escalonamento automático.
Além disso, é possível usar as opções de pipeline para substituir as configurações de recursos padrão, como tipo de máquina, tipo de disco e tamanho do disco, que são alocados para cada worker e que usam GPUs.
FlexRS
O Dataflow oferece uma opção de preço com desconto para CPU e memória no processamento em lote. O Flexible Resource Scheduling (FlexRS) combina VMs preemptivas e comuns em um único pool de workers do Dataflow. Isso oferece aos usuários acesso a recursos de processamento mais baratos. O FlexRS também atrasa a execução de um job em lote do Dataflow em uma janela de seis horas para identificar o melhor momento para iniciar o job com base nos recursos disponíveis.
Embora o Dataflow use uma combinação de workers para executar um job do FlexRS, você recebe uma taxa de desconto uniforme de cerca de 40% no custo de CPU e memória em comparação com os preços comuns do Dataflow, seja qual for o tipo de worker. Especifique o parâmetro do FlexRS para instruir o Dataflow a usar o FlexRS nos pipelines de lote com escalonamento automático.
Dados processados do Dataflow Shuffle
Para pipelines de lote, o Dataflow oferece um recurso altamente escalonável, o Dataflow Shuffle, que embaralha os dados fora dos workers. Para mais informações, consulte Dataflow Shuffle.
O Dataflow Shuffle é cobrado pelo volume de dados processados durante o embaralhamento.
Preços do Streaming Engine
Para pipelines de streaming, o Dataflow Streaming Engine move o embaralhamento de streaming e o processamento de estado das VMs de worker para o back-end do serviço do Dataflow. Saiba mais em Streaming Engine.
Unidades de computação do Streaming Engine
Com o faturamento baseado em recursos, os recursos do Streaming Engine são medidos em Unidades de computação do Streaming Engine. O Dataflow mede os recursos do Streaming Engine usados por cada job e depois cobra com base no total de recursos usados por esse job. Para ativar o faturamento baseado em recursos para seu job, consulte Usar o faturamento baseado em recursos. Quando você usa o faturamento baseado em recursos, os descontos atuais são aplicados automaticamente.
Quando você usa o Dataflow Prime com faturamento baseado em recursos, o valor cobrado é baseado no total de recursos usados por cada job, mas a SKU da Unidade de computação de dados (DCU) é usada em vez da SKU da Unidade de computação do Streaming Engine.
Dados processados do Streaming Engine (legado)
O Dataflow continua oferecendo suporte ao faturamento legado de processamento de dados. A menos que você ative o faturamento baseado em recursos, os jobs serão cobrados pelo faturamento de dados processados.
O faturamento por dados processados do Streaming Engine mede o uso pelo volume de dados de streaming processados, o que depende dos seguintes fatores:
- O volume de dados ingeridos no pipeline de streaming
- A complexidade do pipeline
- O número de fases do pipeline com operação de embaralhamento ou com DoFns com estado
Os exemplos do que conta como um byte processado incluem os seguintes itens:
- Entrada de fluxos de origens de dados
- Fluxos de dados de um estágio de pipeline fundido para outro
- Fluxos de dados persistidos em estado definido pelo usuário ou usados para janelas
- Transmitir mensagens para coletores de dados, como Pub/Sub ou BigQuery
Preços de recursos de computação do Dataflow: lote e FlexRS
A tabela a seguir contém detalhes de preços para recursos de worker e dados de Shuffle processados para jobs em lote e FlexRS.
1 Padrões do worker em lote: 1 vCPU, 3,75 GB de memória, 250 GB de disco permanente se não usar o Dataflow Shuffle, 25 GB de disco permanente se usar o Dataflow Shuffle
2 Padrões do worker no FlexRS: 2 vCPUs, 7,50 GB de memória, disco permanente de 25 GB por worker, com um mínimo de dois workers
Preços de recursos de computação do Dataflow: streaming
A tabela a seguir contém detalhes de preços para recursos de worker, dados processados do Streaming Engine (legado) e unidades de computação do Streaming Engine para jobs de streaming.
3 Padrões do worker no streaming: 4 vCPUs, 15 GB de memória, disco permanente de 400 GB se não estiver usando o Streaming Engine, 30 GB de disco permanente se estiver usando o Streaming Engine. O serviço do Dataflow está limitado atualmente a 15 discos permanentes por instância de worker na execução de um job de streaming. A proporção de 1:1 entre workers e discos é a cota mínima de recursos.
4 Os preços do Dataflow Shuffle são baseados nos ajustes de volume aplicados à quantidade de dados processados durante operações de leitura e gravação no embaralhamento do seu conjunto de dados. Para mais informações, consulte Detalhes de preços do Dataflow Shuffle. Os preços do Dataflow Shuffle não se aplicam a jobs do Streaming Engine que usam o faturamento baseado em recursos.
5 unidades de computação do Streaming Engine: para jobs de streaming que usam o Streaming Engine e o modelo de faturamento baseado em recursos. Esses jobs não são cobrados pelos dados processados durante o embaralhamento.
Ajustes de volume para dados processados do Dataflow Shuffle
As cobranças são calculadas por cada job do Dataflow, por meio de ajustes de volume aplicados ao total de dados processados durante as operações do Dataflow Shuffle. O faturamento real dos dados processados no Dataflow Shuffle equivale ao preço total cobrado por uma quantidade menor de dados, e não ao total processado por um job do Dataflow. Essa diferença resulta em uma métrica de dados de shuffle processados faturáveis menor do que a métrica de dados de shuffle processados totais.
Na tabela a seguir, explicamos como esses ajustes são aplicados:
Dados do Dataflow Shuffle processados | Ajuste de serviço |
Primeiros 250 GB | Redução de 75% |
Próximos 4.870 GB | Redução de 50% |
Dados restantes em 5.120 GB (5 TB) | nenhum |
Por exemplo, se o pipeline resultar em 1.024 GB (1 TB) de dados processados do Dataflow Shuffle, o valor faturável é calculado da seguinte forma:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Se o pipeline resultar em 10.240 GB (10 TB) de dados processados no total do Dataflow Shuffle, o valor faturável de dados será:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preços dos recursos de computação do Dataflow Prime
O Dataflow Prime é uma plataforma de processamento de dados que se baseia no Dataflow para trazer melhorias na utilização de recursos e no diagnóstico distribuído.
Os recursos de computação usados por um job do Dataflow Prime são cobrados pelo número de unidades de computação de dados (DCU, na sigla em inglês). As DCUs representam os recursos de computação alocados para executar o pipeline. Outros recursos do Dataflow usados pelos jobs do Dataflow Prime, como Persistent Disk, GPUs e snapshots, são faturados separadamente.
Para mais informações sobre as regiões disponíveis e as respectivas zonas, consulte a página Regiões e zonas do Compute Engine.
Unidade de computação de dados
Uma unidade de computação de dados (DCU, na sigla em inglês) é uma métrica do Dataflow que rastreia a quantidade de recursos de computação consumidos pelos seus jobs. Os recursos rastreados por DCUs incluem vCPU, memória, dados do Dataflow Shuffle processados (para jobs em lote) e dados do Streaming Engine processados (para jobs de streaming). Jobs que consomem mais recursos têm mais uso de DCU do que jobs que consomem menos recursos. Uma DCU é comparável aos recursos usados por um job do Dataflow executado por uma hora em um worker de 1 vCPU e 4 GB.
Faturamento de unidades de computação de dados
Você será cobrado pelo número total de DCUs consumidos pelo job. O preço de uma única DCU varia de acordo com o tipo de job: lote ou streaming. Ao usar o Dataflow Prime com faturamento baseado em recursos, você é cobrado com base no total de recursos usados em vez de bytes processados.
Otimizar o uso da unidade de computação de dados
Não é possível definir o número de DCUs dos jobs. As DCUs são contadas pelo Dataflow Prime. No entanto, é possível reduzir o número de DCUs consumidos gerenciando os seguintes aspectos do job:
- Reduzir o consumo de memória
- Como reduzir a quantidade de dados processados em etapas de embaralhamento usando filtros, combinadores e codificadores eficientes
Para identificar essas otimizações, use a interface de monitoramento do Dataflow e a interface de detalhes da execução.
Qual é a diferença entre os preços do Dataflow Prime e do Dataflow?
No Dataflow, a cobrança é feita pelos diferentes recursos que seus jobs consomem, como vCPUs, memória, Persistent Disk e a quantidade de dados processados pelo Dataflow Shuffle ou pelo Streaming Engine.
As unidades de computação de dados consolidam todos os recursos, exceto o armazenamento, em uma única unidade de medição. Você será cobrado pelos recursos do Persistent Disk e pelo número de DCUs consumidos com base no tipo de job, lote ou streaming. Para mais informações, consulte Como usar o Dataflow Prime.
O que acontece com os jobs atuais que usam o modelo de preços do Dataflow?
Os jobs em lote e de streaming atuais vão continuar sendo faturados usando o modelo do Dataflow. Quando você atualiza os jobs para usar o Dataflow Prime, eles passam a usar o modelo de preços do Dataflow Prime, em que são cobrados pelos recursos do Persistent Disk e pelas DCUs consumidas.
Outros recursos do Dataflow
O armazenamento, as GPUs, os snapshots e outros recursos são faturados da mesma forma para o Dataflow e o Dataflow Prime.
Preços dos recursos de armazenamento
Os recursos de armazenamento são faturados com a mesma taxa para jobs de streaming, lote e FlexRS. É possível usar as opções do pipeline para alterar o tamanho ou o tipo de disco padrão. O Dataflow Prime fatura o Persistent Disk separadamente com base nos preços da tabela a seguir.
O serviço do Dataflow está limitado atualmente a 15 discos permanentes por instância de worker na execução de um job de streaming. Cada disco permanente é local em relação a uma máquina virtual individual do Compute Engine. A proporção de 1:1 entre workers e discos é a cota mínima de recursos.
Os jobs que usam o Streaming Engine usam discos de inicialização de 30 GB. Os jobs que usam o Dataflow Shuffle usam discos de inicialização de 25 GB. Para jobs que não usam essas ofertas, o tamanho padrão de cada disco permanente é 250 GB no modo de lote e 400 GB no modo de streaming.
O cálculo da utilização do Compute Engine é baseado no número médio de workers e da utilização de Persistent Disk, no valor exato de --maxNumWorkers
. Os discos permanentes são redistribuídos de modo que cada worker tenha um número igual de discos anexados.
Preços dos recursos de GPU
Os recursos de GPU são faturados com a mesma taxa para jobs de streaming e em lote. No momento, a FlexRS não oferece suporte às GPUs. Para informações sobre regiões e zonas disponíveis para GPUs, consulte Disponibilidade de regiões e zonas de GPU na documentação do Compute Engine.
Snapshots
Para ajudar a gerenciar a confiabilidade dos pipelines de streaming, use snapshots para salvar e restaurar o estado do pipeline. O uso de snapshots é cobrado pelo volume de dados armazenados, que depende dos seguintes fatores:
- O volume de dados ingeridos no pipeline de streaming
- Sua lógica de janela
- O número de fases do pipeline
É possível capturar um snapshot do job de streaming usando o console do Dataflow ou a Google Cloud CLI. Não há custo extra para criar um job a partir do snapshot para restaurar o estado do pipeline. Para mais informações, consulte Como usar snapshots do Dataflow.
Preços de snapshots
VM confidencial
A VM confidencial para o Dataflow criptografa os dados em uso nas VMs de worker do Compute Engine. Para mais detalhes, consulte Visão geral de VMs confidenciais.
O uso da VM confidencial para o Dataflow gera custos fixos adicionais por vCPU e por GB.
Preços da VM confidencial
Os preços são globais e não mudam com base na região Google Cloud.
Recursos que não são do Dataflow
Além do uso do Dataflow, um job pode consumir os seguintes recursos, cada um faturado de acordo com os respectivos preços, incluindo, entre outros:
-
Os jobs do Dataflow usam o Cloud Storage para armazenar arquivos temporários durante a execução do pipeline. Para evitar cobranças por custos desnecessários de armazenamento, desative o recurso de exclusão reversível nos buckets que os jobs do Dataflow usam para armazenamento temporário. Para mais informações, consulte Remover uma política de exclusão reversível de um bucket.
-
É possível rotear registros para outros destinos ou excluir registros da ingestão. Para informações sobre como otimizar o volume de registros para jobs do Dataflow, consulte Como controlar o volume de registros do Dataflow.
Ver o uso de recursos
Para conferir os recursos totais de vCPU, memória e Persistent Disk associados a um job, acesse o painel Informações do job em Métricas de recursos. É possível acompanhar as seguintes métricas na interface de monitoramento do Dataflow:
- Tempo total de vCPU
- Tempo total de uso da memória
- Tempo total de uso do disco permanente
- Total de dados de streaming processados
- Total de dados embaralhados processados
- Dados embaralhados processados faturáveis
É possível usar a métrica Total de dados de embaralhamento processados para avaliar o desempenho do seu pipeline e a métrica Dados de embaralhamento processados faturáveis para determinar os custos do job do Dataflow.
No Dataflow Prime, é possível conferir o número total de DCUs consumidos por um job no painel Job info, em Resource metrics.
Calculadora de preços
Use a calculadora de preços do do Google Cloudpara entender como a fatura é calculada.
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
A seguir
- Leia a documentação do Dataflow.
- Primeiros passos com o Dataflow.
- Use a calculadora de preços.
- Saiba mais sobre soluções e casos de uso do Dataflow.