VMs escalonáveis de alto desempenho
Processamento de dados de stream e em lote rápido e unificado

O Dataflow é um serviço de análise de streaming totalmente gerenciado que minimiza a latência, o tempo e o custo de processamento por meio de escalonamento automático e processamento em lote. Com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, pagando apenas por aquilo que usa.

  • Provisionamento automatizado e gerenciamento dos recursos de processamento
  • Escalonamento automático horizontal de recursos de worker para maximizar a utilização de recursos
  • Streaming unificado e modelo de programação em lote
  • Inovações voltadas para a comunidade de OSS com o SDK Apache Beam
  • Processamento único confiável e consistente

Análise de dados com streaming rápido

O Dataflow permite o desenvolvimento rápido e simplificado do pipeline de dados de streaming com menor latência de dados.

Operações e gerenciamento simplificados

Permita que as equipes se concentrem na programação em vez de gerenciar os clusters de servidor, uma vez que a abordagem sem servidor do Dataflow remove a sobrecarga operacional das cargas de trabalho da engenharia de dados.

Reduza o custo total de propriedade

O escalonamento automático de recursos com os recursos de processamento em lote com custo otimizado permite ao Dataflow oferecer uma capacidade praticamente ilimitada de gerenciamento dos altos e baixos das suas cargas de trabalho sem gastar demais.

Principais recursos

Gerenciamento automatizado de recursos e reequilíbrio dinâmico de trabalho

O Dataflow automatiza o provisionamento e o gerenciamento dos recursos de processamento para minimizar a latência e maximizar a utilização. Assim, você não precisa aumentar as instâncias ou a reserva manualmente. O particionamento de trabalho também é automatizado e otimizado para reequilibrar dinamicamente o trabalho com atraso. Não é preciso procurar teclas de atalho nem fazer o pré-processamento dos seus dados de entrada.

Escalonamento automático horizontal

Escalonamento automático horizontal dos recursos de worker para alcançar os melhores resultados de capacidade com o melhor custo-benefício.

Preços flexíveis de programação de recursos para processamento em lote

Para o processamento com flexibilidade no tempo de agendamento do job, como jobs noturnos, o agendamento flexível de recursos (FlexRS, na sigla em inglês) custa menos para o processamento em lote. Esses jobs flexíveis são colocados em uma fila com a garantia de que eles serão recuperados para execução dentro de seis horas.

Veja todos os recursos

Histórias de clientes

Destaques

  • Mais de 30 anos de dados de notícias não estruturados sintetizados para avaliar o impacto comercial qualitativo dos principais eventos.

  • Esforços de rede complexa para revelar relações e insights ocultos

  • Protótipo do mapa de informações enviado com facilidade em 10 semanas

Parceiro

Veja mais clientes

Novidades

Documentação

Tutorial
Primeiros passos usando Python

Configure um projeto do Google Cloud e o ambiente de desenvolvimento em Python, receba o SDK do Apache Beam e execute e modifique o exemplo do WordCount no serviço do Dataflow.

Tutorial
Como usar o SQL do Dataflow

Crie uma consulta do SQL e implante um job do Dataflow para executar sua consulta do SQL com base na IU do SQL do Dataflow.

Tutorial
Como instalar o SDK do Apache Beam

Instale o SDK do Apache Beam para executar pipelines no serviço do Dataflow.

Tutorial
Machine learning com o Apache Beam e o TensorFlow

Pré-processe, treine e faça previsões em um modelo de machine learning de energia molecular usando o Apache Beam, o Dataflow e o TensorFlow.

Casos de uso comuns

Análise em stream

A análise de streaming do Google Cloud torna os dados mais organizados, úteis e acessíveis assim que são gerados. Integrada à infraestrutura de escalonamento automático do Dataflow junto com o Pub/Sub e o BigQuery, nossa solução de streaming provisiona os recursos necessários para incluir, processar e analisar volumes flutuantes de dados em tempo real, o que possibilita insights comerciais em tempo real. Este provisionamento abstraído reduz a complexidade e torna a análise de streaming mais acessível para os analistas e engenheiros de dados.

Arquitetura, mostrando a análise de streamingTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
Processamento de dados de sensor e registro

Extraia insights de negócios de sua rede global de dispositivos com uma plataforma inteligente de Internet das Coisas (IoT, na sigla em inglês).

IA em tempo real

O Dataflow adiciona eventos de streaming à AI Platform e ao TensorFlow Extended (TFX) do Google Cloud para permitir análise preditiva, detecção de fraudes, personalização em tempo real e outros casos de uso de análise avançada. O TFX usa o Dataflow e o Apache Beam como um mecanismo de processamento de dados distribuído para viabilizar vários aspectos do ciclo de vida do ML, tudo compatível com CI/CD para ML por meio de pipelines do Kubeflow.

Todos os recursos

Escalonamento automático O escalonamento automático permite que o serviço Dataflow escolha automaticamente o número apropriado das instâncias de worker necessárias para executar seu job. O serviço Dataflow também realoca dinamicamente mais ou menos workers durante o tempo de execução de acordo com as características do job.
Streaming Engine O Streaming Engine separa a computação do armazenamento de estado, migrando partes da execução do pipeline das VMs de worker e para o back-end do serviço Dataflow. Isso melhora significativamente o escalonamento automático e a latência dos dados.
Dataflow Shuffle O Dataflow Shuffle baseado em serviços migra as operações de embaralhamento, usadas para agrupar e integrar dados, das VMs de worker para o back-end do serviço Dataflow, o que possibilita pipelines em lote. O escalonamento dos pipelines em lote é feito para centenas de terabytes sem problemas e sem precisar de ajustes.
SQL do Dataflow O SQL do Dataflow permite que você use as habilidades de SQL para desenvolver pipelines de streaming do Dataflow diretamente da IU da Web do BigQuery. É possível integrar dados de streaming do Pub/Sub com arquivos no Cloud Storage ou tabelas no BigQuery, gravar resultados no BigQuery e criar painéis em tempo real usando as Planilhas Google ou outras ferramentas de BI.
Programação flexível de recursos (FlexRS, na sigla em inglês) A FlexRS do Dataflow reduz os custos do processamento em lote ao usar técnicas de agendamento avançadas, o serviço Dataflow Shuffle e uma combinação de instâncias de máquina virtual (VM) preemptiva e de VMs regulares.
Modelos do Dataflow Os modelos de dataflow permitem que você compartilhe facilmente seus pipelines com os membros da equipe e em toda a organização, ou aproveite os vários modelos disponibilizados pelo Google para implementar tarefas de processamento de dados simples, mas úteis.
Monitoramento inline O monitoramento inline do Dataflow possibilita interação com seus jobs e acesso direto às métricas deles. Também é possível configurar alertas para condições de dados desatualizados e sistemas de alta latência.
Chaves de criptografia gerenciadas pelo cliente É possível criar um pipeline em lote ou de streaming protegido por uma chave de criptografia gerenciada pelo cliente (CMEK, na sigla em inglês) ou acessar dados protegidos por CMEK em origens e coletores.
VPC Service Controls do Dataflow A integração do Dataflow com VPC Service Controls protege ainda mais seu ambiente de processamento de dados ao melhorar sua capacidade de reduzir o risco de exportação de dados.
IPs privados A desativação de IPs públicos permite projetar melhor a infraestrutura de processamento de dados. Ao não utilizar endereços IP públicos para workers do Dataflow, você também diminui o número de endereços IP públicos usados da cota do projeto do Google Cloud.

Preço

Os jobs do Cloud Dataflow são cobrados em incrementos por segundo, com base no uso real de workers de stream ou em lote do Cloud Dataflow. Os jobs que usam outros recursos do Google Cloud, como o Cloud Storage ou o Cloud Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.

Veja detalhes de preço

Parceiros

Desenvolvedores de fora e parceiros do Google Cloud desenvolveram integrações com o Dataflow para viabilizar tarefas complexas de processamento de dados com rapidez e facilidade.