Preços do Dataflow
Nesta página estão os preços do Dataflow. Para saber os preços de outros produtos, leia a documentação de preços.
Para saber como economizar 40% com um compromisso de três anos ou 20% com um compromisso de um ano de compromisso, consulte nossa página de descontos por compromisso de uso (CUDs).
Visão geral
O uso do Dataflow é cobrado pelos recursos usados pelos jobs. Dependendo do modelo de preços usado, os recursos são medidos e cobrados de maneira diferente.
Recursos de computação do Dataflow | Recursos de computação do Dataflow Prime |
|
Unidades de computação de dados (DCUs) (lote e streaming) |
Outros recursos do Dataflow que são cobrados por todos os jobs incluem Persistent Disk, GPUs e snapshots.
Recursos de outros serviços podem ser usados para o Dataflow trabalho. Os serviços usados com o Dataflow podem incluir BigQuery, Pub/Sub, Cloud Storage, Cloud Logging, entre outros.
Embora a taxa de preços seja baseada na hora, o Dataflow o uso é cobrado em incrementos por segundo, por job. Uso é é indicado em horas para aplicar o preço por hora ao uso de segundo a segundo. Por exemplo, 30 minutos são 0,5 hora. Os workers e jobs podem consumir recursos como descritos nas seções a seguir.
As próximas versões do Dataflow podem ter taxas de serviço diferentes ou agrupamento de serviços relacionados.
Recursos de computação do Dataflow
Faturamento do Dataflow para recursos de computação inclui os seguintes componentes:
- CPU e memória do worker
- Dados do Dataflow Shuffle processados para cargas de trabalho em lote
- Unidades de computação do Streaming Engine
- Dados do Streaming Engine processados
Para mais informações sobre as regiões disponíveis e as zonas delas, consulte a Regiões e zonas do Compute Engine página.
CPU e memória do worker
Cada job do Dataflow usa pelo menos um worker do Dataflow. Há dois tipos deles: em lote e por streaming, Os workers em lote e de streaming têm taxas de serviço separadas.
Os workers do Dataflow consomem os seguintes recursos, todos faturados por segundo:
- CPU
- Memória
Os workers em lote e por streaming são recursos especializados que utilizam o Compute Engine. No entanto, um job do Dataflow não emite Faturamento do Compute Engine para recursos do Compute Engine gerenciados pelo serviço do Dataflow. Em vez disso, o serviço Dataflow incluem o uso desses recursos do Compute Engine.
É possível modificar a contagem de workers padrão de um job. Se você estiver usando escalonamento automático, é possível especificar o número máximo de workers a serem alocados para um job. Trabalhadores e os respectivos recursos são adicionados e removidos automaticamente com base para a atuação do escalonamento automático.
Além disso, você pode usar opções de pipeline para substituir as configurações de recursos padrão, como tipo de máquina, tipo de disco e alocados para cada worker e que usam GPUs.
FlexRS
O Dataflow oferece uma opção com desconto para CPU e memória preços para processamento em lote. O Flexible Resource Scheduling (FlexRS) combina VMs preemptivas e comuns em um único pool de workers do Dataflow. Isso oferece aos usuários acesso a recursos de processamento mais baratos. O FlexRS também atrasa a execução de um job em lote do Dataflow em uma janela de seis horas para identificar o melhor momento para iniciar o job com base nos recursos disponíveis.
Embora o Dataflow usa uma combinação de workers para executar um job da FlexRS, você recebe uma cobrança de desconto de cerca de 40% no custo de CPU e memória em comparação os preços do Dataflow, independentemente o tipo de worker. Especifique o parâmetro do FlexRS para instruir o Dataflow a usar o FlexRS nos pipelines de lote com escalonamento automático.
Dados processados do Dataflow Shuffle
Para pipelines em lote, o Dataflow oferece um recurso altamente escalonável, o Dataflow Shuffle, que embaralha os dados fora dos workers. Para mais informações, consulte Dataflow Shuffle.
O Dataflow Shuffle é cobrado pelo volume de dados durante o embaralhamento.
Preços do Streaming Engine
Para pipelines de streaming, o Dataflow Streaming Engine move o embaralhamento de streaming e o processamento de estado das VMs de worker Back-end do serviço do Dataflow. Para mais informações, consulte Streaming Engine:
Unidades de computação do Streaming Engine
Com o faturamento baseado em recursos, os recursos do Streaming Engine são medidos em Unidades de computação do Streaming Engine. O Dataflow mede os recursos do Streaming Engine que cada job usa e, em seguida, faz a cobrança com base no total de recursos usados pelo job. Para ativar o faturamento baseado em recursos para seu job, consulte Usar o faturamento com base em recursos. Quando você usa o faturamento com base em recursos, os descontos atuais são aplicados automaticamente.
Quando você usa o Dataflow Prime com faturamento baseado em recursos, a cobrança é feita com base com o total de recursos usados por cada job, A SKU Unidade de computação de dados (DCU) será usada em vez da SKU da unidade de computação do Streaming Engine.
Dados processados do Streaming Engine (legado)
O Dataflow continua dão suporte ao faturamento legado por dados processados. A menos que você ativar o faturamento com base em recursos; jobs são cobrados usando o faturamento processado por dados.
O faturamento processado por dados do Streaming Engine mede o uso pelo volume de dados de streaming processados, o que depende dos seguintes fatores:
- O volume de dados ingeridos no pipeline de streaming
- A complexidade do pipeline
- O número de estágios do pipeline com operação de embaralhamento ou DoFns com estado
Exemplos do que conta como um byte processado incluem os seguintes itens:
- Fluxos de entrada de fontes de dados
- Fluxos de dados de um estágio do pipeline combinado para outro estágio combinado
- fluxos de dados mantidos em um estado definido pelo usuário ou usados para janelamento.
- enviar mensagens para coletores de dados, como o Pub/Sub ou o BigQuery;
Preços de recursos de computação do Dataflow: lote e FlexRS
A tabela a seguir contém detalhes dos preços dos recursos do worker e do embaralhamento e dados processados para jobs em lote e da FlexRS.
1 Padrões do worker em lote: 1 vCPU, 3,75 GB de memória, disco permanente de 250 GB se não estiver usando o Dataflow Shuffle, disco permanente de 25 GB se usar o Dataflow Shuffle
2 Padrões do worker no FlexRS: 2 vCPUs, 7,50 GB de memória, disco permanente de 25 GB por worker, com um mínimo de dois workers
Preços de recursos de computação do Dataflow - streaming
A tabela a seguir contém detalhes dos preços dos recursos de worker, streaming dados processados do Streaming Engine (legados) e unidades de computação do Streaming Engine para streaming a outras vagas.
3 Padrões do worker por streaming: 4 vCPUs, 15 GB de memória, disco permanente de 400 GB se não estiver usando o Streaming Engine, disco permanente de 30 GB se estiver usando o Streaming Engine. O Atualmente, o serviço Dataflow está limitado a 15 discos permanentes por instância de worker quando executar um job de streaming. A proporção de 1:1 entre workers e discos é a cota mínima de recursos.
4 Os preços do Dataflow Shuffle são baseados nos ajustes de volume aplicados à quantidade de dados processados durante as operações de leitura e gravação, ao embaralhar o conjunto de dados. Para mais informações, consulte Detalhes dos preços do Dataflow Shuffle. Os preços do Dataflow Shuffle não se aplicam a jobs do Streaming Engine que usam faturamento baseado em recursos.
5 Unidades de computação do Streaming Engine: para jobs de streaming que usam o Streaming Engine e o modelo de faturamento baseado em recursos. Esses jobs não são cobrados pelos dados processados durante o embaralhamento.
Ajustes de volume dos dados processados do Dataflow Shuffle
As cobranças são calculadas por job do Dataflow por meio de ajustes de volume aplicados ao valor total dados processados durante as operações do Dataflow Shuffle. O faturamento real dos dados processados no Dataflow Shuffle equivale ao preço total cobrado por uma quantidade menor de dados, e não ao total processado por um job do Dataflow. Essa diferença resulta na de dados de embaralhamento faturáveis menor do que métrica de dados de embaralhamento totais processados.
Na tabela a seguir, explicamos como esses ajustes são aplicados:
Dados processados do Dataflow Shuffle | Ajuste de faturamento |
Primeiros 250 GB | Redução de 75% |
Próximos 4.870 GB | Redução de 50% |
Dados restantes em 5.120 GB (5 TB) | nenhum |
Por exemplo, se o pipeline resultar em 1.024 GB (1 TB) de dados totais processados do Dataflow Shuffle, o valor faturável será calculado da seguinte forma:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Se o pipeline resultar em 10.240 GB (10 TB) de dados totais processados do Dataflow Shuffle, a quantidade faturável de dados será:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preços dos recursos de computação do Dataflow Prime
Dataflow Prime (em inglês) é uma plataforma de processamento de dados que se baseia no Dataflow para oferecer melhorias na utilização de recursos e no diagnóstico distribuído.
Os recursos de computação usados por um job do Dataflow Prime são cobrados pelo número de Unidades de computação (DCUs). As DCUs representam os recursos de computação alocados para executar o pipeline. Outros recursos do Dataflow usados pelos jobs do Dataflow Prime, como Persistent Disk, GPUs e snapshots, são cobrados separadamente.
Para mais informações sobre as regiões disponíveis e as zonas delas, consulte a Regiões e zonas do Compute Engine página.
Unidade de computação de dados
Uma unidade de computação de dados (DCU) é uma unidade de medição de uso do Dataflow que rastreia o número de recursos de computação consumidos pelos jobs. Recursos monitorados por DCUs incluem vCPU, memória, dados processados do Dataflow Shuffle (para jobs em lote) e dados processados do Streaming Engine (para jobs de streaming). Vagas que consomem mais recursos têm mais uso de DCU em comparação aos jobs que consomem com menos recursos. Uma DCU é comparável aos recursos usados por uma Job do Dataflow executado por uma hora em um worker com 1 vCPU e 4 GB de armazenamento.
Faturamento da unidade de computação de dados
A cobrança é feita com base no número total de DCUs consumidas pelo job. O preço de uma única DCU varia um job em lote ou um job de streaming. Quando você usa o Dataflow Prime com o faturamento com base em recursos, você faturado com base no total de recursos usados, e não no processamento de bytes.
Otimizar o uso da unidade de computação de dados
Não é possível definir o número de DCUs para seus jobs. As DCUs são contadas pelo Dataflow Prime. No entanto, é possível reduzir o número de DCUs consumidas gerenciando os seguintes aspectos do seu trabalho:
- Reduzir o consumo de memória
- reduzir a quantidade de dados processados nas etapas de embaralhamento usando filtros, combinadores e codificadores eficientes.
Para identificar essas otimizações, use o Interface de monitoramento do Dataflow e a interface de detalhes de execução.
Qual é a diferença entre os preços do Dataflow Prime e do Dataflow?
No Dataflow, você é cobrado por recursos diferentes que os jobs consomem, como vCPUs, memória, Persistent Disk e a quantidade de dados o Dataflow Shuffle ou o Streaming Engine.
As unidades de computação de dados consolidam todos os recursos, exceto armazenamento, em um única unidade de medida. Você é cobrado pelos recursos do Persistent Disk e pelos número de DCUs consumidas com base no tipo de job, lote ou streaming. Para mais informações, consulte Como usar o Dataflow Prime.
O que acontecerá com meus jobs atuais que usam o modelo de preços do Dataflow?
Seus jobs atuais em lote e de streaming continuam a ser faturados usando o modelo do Dataflow. Quando você atualiza os jobs para usar o Dataflow Prime, os jobs serão depois usam o modelo de preços do Dataflow Prime, no qual são cobrados pelo Persistent Disk os recursos e as DCUs consumidas.
Outros recursos do Dataflow
Armazenamento, GPUs, snapshots e outros recursos são cobrados da mesma forma para o Dataflow e o Dataflow Prime.
Preços dos recursos de armazenamento
Os recursos de armazenamento são cobrados com a mesma taxa para streaming, lote e FlexRS a outras vagas. Você pode usar opções de pipeline para alterar o tamanho padrão do disco ou o tipo de disco. O Dataflow Prime cobra o Persistent Disk separadamente com base nos preços tabela a seguir.
O serviço Dataflow está limitado a 15 discos permanentes por instância de worker ao executar um job de streaming. Cada disco permanente é local para uma máquina virtual individual do Compute Engine. Uma proporção de 1:1 entre workers e discos é a cota mínima de recursos.
Os jobs que usam o Streaming Engine usam 30 GB nos discos de inicialização. Jobs que usam o Dataflow Shuffle usam discos de 25 GB de inicialização. Para vagas que não usam essas ofertas, o tamanho padrão de cada disco permanente é de 250 GB no modo de lote e 400 GB no modo de streaming.
O uso do Compute Engine é baseado no número médio de workers, enquanto
O uso do Persistent Disk é baseado no valor exato de --maxNumWorkers
. Discos permanentes
são redistribuídos de modo que cada worker tenha um número igual de discos anexados.
Preços dos recursos da GPU
Os recursos de GPU são cobrados com a mesma taxa para jobs em lote e de streaming. FlexRS não oferece suporte a GPUs no momento. Para mais informações sobre as regiões disponíveis e zonas para GPUs, consulte Disponibilidade de regiões e zonas da GPU na documentação do Compute Engine.
Snapshots
Para gerenciar a confiabilidade dos pipelines de streaming, use snapshots para salvar e restaurar o estado do pipeline. O uso de snapshots é cobrado pelo volume de dados armazenados, o que depende dos seguintes fatores:
- O volume de dados ingeridos no pipeline de streaming
- Sua lógica de janelamento
- O número de estágios do pipeline
É possível criar um snapshot do job de streaming usando o Dataflow console do Cloud ou a Google Cloud CLI. Não há custo extra para criar um job a partir do snapshot para restaurar o estado do pipeline. Para mais informações, consulte Como usar snapshots do Dataflow.
Preços de snapshots
VM confidencial
A VM confidencial do Dataflow criptografa dados em uso e VMs de worker do Compute Engine. Para mais detalhes, consulte Visão geral da VM confidencial.
O uso da VM confidencial para o Dataflow gera por vCPU e por GB.
Preços da VM confidencial
Os preços são globais e não mudam de acordo com a região do Google Cloud.
Recursos que não são do Dataflow
Além do uso do Dataflow, um job pode consumir os seguintes itens cada um com o próprio preço, incluindo, mas não se limitando a:
-
Os jobs do Dataflow usam o Cloud Storage para armazenar arquivos temporários durante a execução do pipeline. Para evitar cobranças por custos desnecessários de armazenamento, desative o recurso de exclusão reversível nos buckets que os jobs do Dataflow usam para armazenamento temporário. Para mais informações, consulte Remover uma política de exclusão reversível de um bucket.
-
É possível rotear registros para outros destinos excluir registros da ingestão. Para informações sobre como otimizar o volume de registros no Dataflow jobs, consulte Como controlar o volume de registros do Dataflow.
Ver o uso de recursos
É possível ver o total de recursos de vCPU, memória e Persistent Disk associados com um job no painel Informações do job em Métricas de recursos. Você pode rastrear as seguintes métricas no Interface de monitoramento do Dataflow:
- Tempo total de vCPU
- Tempo total de uso da memória
- Tempo total de uso do disco permanente
- Total de dados de streaming processados
- Total de dados de embaralhamento processados
- Dados de embaralhamento faturáveis processados
Use a métrica Total embaralhamento de dados processados para avaliar a performance o pipeline e a métrica Dados de embaralhamento faturáveis processados para determinar os custos do job do Dataflow.
No Dataflow Prime, é possível conferir o número total de DCUs consumidas por um job no painel Informações do job em Métricas de recursos.
Calculadora de preços
Use a calculadora de preços do Google Cloud para entender o cálculo da sua fatura.
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
A seguir
- Leia a documentação do Dataflow.
- Primeiros passos com o Dataflow.
- Use a calculadora de preços.
- Saiba mais sobre soluções e casos de uso do Dataflow.