Dataflow

Processamento unificado de dados de stream e em lote, sem servidor, rápido e econômico.

Clientes novos ganham US$ 300 em créditos para gastar no Google Cloud nos primeiros 90 dias. Todos os clientes podem usar grátis (até os limites mensais) determinados produtos, como o BigQuery, o Cloud Storage e muito mais.

Faça uma avaliação gratuita do Dataflow
  • action/check_circle_24px Criado com o Sketch.

    Serviço de processamento de dados totalmente gerenciado

  • action/check_circle_24px Criado com o Sketch.

    Provisionamento e gerenciamento automatizados dos recursos de processamento

  • action/check_circle_24px Criado com o Sketch.

    Escalonamento automático horizontal de recursos de workers para maximizar a utilização de recursos

  • action/check_circle_24px Criado com o Sketch.

    Inovações promovidas pela comunidade de OSS com o SDK do Apache Beam

  • action/check_circle_24px Criado com o Sketch.

    Processamento único confiável e consistente

Vantagens

Streaming de análise de dados com velocidade

O Dataflow permite o desenvolvimento rápido e simplificado do pipeline de dados de streaming com menor latência de dados.

Simplifique as operações e o gerenciamento

Com a abordagem sem servidor do Dataflow removendo a sobrecarga operacional das cargas de trabalho da engenharia de dados, as equipes podem se concentrar na programação em vez de gerenciar clusters de servidores.

Reduza o custo total de propriedade

O escalonamento automático de recursos junto com o potencial de processamento em lote com custo otimizado permite ao Dataflow oferecer uma capacidade praticamente ilimitada para gerenciar os altos e baixos das suas cargas de trabalho sem gastar demais.

Principais recursos

Principais recursos

Escalonamento automático de recursos e reequilíbrio dinâmico de trabalho

Minimize a latência do pipeline, maximize a utilização de recursos e reduza o custo de processamento por registro de dados com escalonamento automático de recursos e visibilidade multidimensional dos dados. As entradas de dados são particionadas de forma automática e constantemente rebalanceadas para equilibrar a utilização de recursos do worker e reduzir o efeito das "teclas de atalho" no desempenho do pipeline.

Programação e preços flexíveis para processamento em lote

Para o processamento com flexibilidade no horário de agendamento do job, como jobs noturnos, o agendamento flexível de recursos (FlexRS) custa menos para o processamento em lote. Esses jobs flexíveis são colocados em uma fila com a garantia de que eles serão recuperados para execução dentro de seis horas.

Padrões de IA em tempo real prontos para uso

Ativados com padrões prontos para uso, os recursos de IA em tempo real do Dataflow permitem reações em tempo real, com inteligência quase humana para grandes fluxos de eventos. Os clientes podem criar soluções inteligentes que vão desde análise preditiva e detecção de anomalias até personalização em tempo real e outros casos de uso de análise avançada. 

Veja todos os recursos

Clientes

Clientes

Dow Jones
A Dow Jones dá vida aos principais conjuntos de dados de eventos históricos com o Dataflow.
Leia a história

Destaques da história

  • Mais de 30 anos de dados de notícias sintetizados para avaliar o impacto comercial

  • Relações e insights de dados ocultos revelados

  • Protótipo do mapa de informações enviado com facilidade em 10 semanas

Parceiro

O que há de novo

O que há de novo

Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Documentação

Documentação

Guia de início rápido
Guia de início rápido do Dataflow com Python

Configure um projeto do Google Cloud e o ambiente de desenvolvimento do Python, faça o download do SDK do Apache Beam e execute e modifique o exemplo do WordCount no serviço do Dataflow.

Tutorial
Como usar o Dataflow SQL

Crie uma consulta SQL e implante um job do Dataflow para executar sua consulta pela IU do Dataflow SQL.

Tutorial
Como instalar o SDK do Apache Beam

Instale o SDK do Apache Beam para executar pipelines no serviço do Dataflow.

Tutorial
Machine learning com o Apache Beam e o TensorFlow

Pré-processe, treine e faça previsões em um modelo de machine learning de energia molecular usando o Apache Beam, o Dataflow e o TensorFlow.

Tutorial
Qwiklab: como processar dados com o Google Cloud Dataflow

Saiba como processar um conjunto de dados em tempo real baseado em texto usando Python e Dataflow. Depois, armazene-o no BigQuery.

Princípios básicos do Google Cloud
Recursos do Dataflow

Encontre informações sobre preços, cotas de recursos, perguntas frequentes e muito mais.

Tutorial
Descubra o que é possível criar com o Google Cloud

Encontre guias de recursos técnicos do Google Cloud relacionados com o Dataflow.

Casos de uso

Casos de uso

Caso de uso
Análise de streams

A análise de streams do Google torna os dados mais organizados, úteis e acessíveis assim que são gerados. Integrada ao Dataflow junto com o Pub/Sub e o BigQuery, nossa solução de streaming oferece os recursos necessários para ingerir, processar e analisar volumes flutuantes de dados em tempo real, o que possibilita insights comerciais em tempo real. Este provisionamento abstraído reduz a complexidade e torna a análise de streams mais acessível para os analistas e engenheiros de dados.

Diagrama de análise de streams do Dataflow
Caso de uso
IA em tempo real

O Dataflow adiciona eventos de streaming ao AI Platform e ao TensorFlow Extended (TFX) do Google Cloud para permitir análise preditiva, detecção de fraudes, personalização em tempo real e outros casos de uso de análise avançada. O TFX usa o Dataflow e o Apache Beam como mecanismo de processamento de dados distribuído para viabilizar vários aspectos do ciclo de vida do ML, tudo compatível com CI/CD para ML por meio de pipelines do Kubeflow.

Caso de uso
Processamento de dados de sensores e registros

Revele insights de negócios em sua rede global de dispositivos com uma plataforma inteligente de Internet das Coisas (IoT).

Todos os recursos

Todos os recursos

Streaming Engine O Streaming Engine separa a computação do armazenamento de estado, migrando partes da execução do pipeline das VMs de workers para o back-end do serviço do Dataflow. Isso melhora significativamente o escalonamento automático e a latência dos dados.
Escalonamento automático O escalonamento automático permite que o serviço do Dataflow escolha automaticamente o número apropriado de instâncias de workers necessárias para executar o job. O serviço do Dataflow também realoca dinamicamente mais ou menos workers durante o tempo de execução de acordo com as características do job.
Dataflow Shuffle O Dataflow Shuffle com base em serviços migra as operações de embaralhamento (usadas para agrupar e mesclar dados) das VMs de workers para o back-end de serviço do Dataflow, possibilitando pipelines em lote. O escalonamento dos pipelines em lote é feito para centenas de terabytes. O processo não tem complicações e não precisa de ajustes.
Dataflow SQL O Dataflow SQL permite que você use suas habilidades com SQL para desenvolver pipelines de streaming do Dataflow diretamente na IU da Web do BigQuery. É possível mesclar dados de streaming do Pub/Sub com arquivos no Cloud Storage ou tabelas no BigQuery, gravar resultados no BigQuery e criar painéis em tempo real usando as Planilhas Google ou outras ferramentas de BI.
Programação flexível de recursos (FlexRS) O Dataflow FlexRS reduz os custos do processamento em lote usando técnicas avançadas de programação, o serviço do Dataflow Shuffle e uma combinação de instâncias de máquinas virtuais preemptivas e VMs comuns. 
Modelos do Dataflow Eles permitem que você compartilhe facilmente os pipelines com os membros da equipe e por toda a organização, ou aproveite os vários modelos disponibilizados pelo Google para implementar tarefas simples, mas úteis, de processamento de dados. Com o Flex Templates, é possível criar um modelo sem nenhum pipeline do Dataflow.
Integração de notebooks Crie pipelines de modo iterativo, do zero, com os AI Platform Notebooks e implemente com o executor do Dataflow. Crie pipelines do Apache Beam passo a passo ao inspecionar os gráficos dos pipelines em um fluxo de trabalho read-eval-print-loop (REPL). Os notebooks são disponibilizados por meio do AI Platform do Google e permitem escrever pipelines em um ambiente intuitivo com os frameworks mais recentes de ciência de dados e machine learning.
Monitoramento inline O monitoramento inline do Dataflow permite acessar diretamente as métricas do job para ajudar na solução de problemas de pipelines em lote e de streaming. É possível acessar gráficos de monitoramento na visibilidade de nível do worker e da etapa. Além disso, você pode configurar alertas para condições, como dados desatualizados e latência alta do sistema.
Chaves de criptografia gerenciadas pelo cliente É possível criar um pipeline em lote ou de streaming protegido por uma chave de criptografia gerenciada pelo cliente (CMEK, na sigla inglês) ou acessar dados protegidos pela CMEK em origens e coletores.
VPC Service Controls do Dataflow A integração do Dataflow com o VPC Service Controls protege ainda mais seu ambiente de processamento de dados ao melhorar sua capacidade de reduzir o risco de exfiltração de dados.
IPs privados A desativação de IPs públicos permite proteger melhor sua infraestrutura de processamento de dados. Ao não utilizar endereços IP públicos para workers do Dataflow, você também diminui o número de endereços IP públicos consumidos na sua cota do projeto do Google Cloud.

Preços

Preços

Os jobs do Dataflow são cobrados por segundo, com base no uso real de workers em lote ou de streaming do Dataflow. Recursos adicionais, como Cloud Storage ou Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.

Parceiros

Parceiros

Os parceiros do Google Cloud desenvolveram integrações com o Dataflow para viabilizar de maneira rápida e fácil tarefas avançadas de processamento de dados de qualquer tamanho.