Aprenda sobre diferentes arquiteturas para implementar análises de streaming na sessão Como gerar valor em tempo real com análise de streaming no Next.

Ir para

Dataflow

Processamento unificado de dados de stream e em lote, sem servidor, rápido e econômico.

Clientes novos ganham US $300 em créditos para gastar no Dataflow ou em outros produtos do Google Cloud nos primeiros 90 dias.

  • action/check_circle_24px Criado com o Sketch.

    Serviço de processamento de dados totalmente gerenciado

  • action/check_circle_24px Criado com o Sketch.

    Provisionamento e gerenciamento automatizados dos recursos de processamento

  • action/check_circle_24px Criado com o Sketch.

    Escalonamento automático horizontal de recursos de workers para maximizar a utilização de recursos

  • action/check_circle_24px Criado com o Sketch.

    Inovações promovidas pela comunidade de OSS com o SDK do Apache Beam

  • action/check_circle_24px Criado com o Sketch.

    Processamento único confiável e consistente

Vantagens

Streaming de análise de dados com velocidade

O Dataflow permite o desenvolvimento rápido e simplificado do pipeline de dados de streaming com menor latência de dados.

Simplifique as operações e o gerenciamento

Com a abordagem sem servidor do Dataflow removendo a sobrecarga operacional das cargas de trabalho da engenharia de dados, as equipes podem se concentrar na programação em vez de gerenciar clusters de servidores.

Reduza o custo total de propriedade

O escalonamento automático de recursos junto com o potencial de processamento em lote com custo otimizado permite ao Dataflow oferecer uma capacidade praticamente ilimitada para gerenciar os altos e baixos das suas cargas de trabalho sem gastar demais.

Principais recursos

Principais recursos

Escalonamento automático de recursos e reequilíbrio dinâmico de trabalho

Minimize a latência do pipeline, maximize a utilização de recursos e reduza o custo de processamento por registro de dados com escalonamento automático de recursos e visibilidade multidimensional dos dados. As entradas de dados são particionadas de forma automática e constantemente rebalanceadas para equilibrar a utilização de recursos do worker e reduzir o efeito das "teclas de atalho" no desempenho do pipeline.

Programação e preços flexíveis para processamento em lote

Para o processamento com flexibilidade no horário de agendamento do job, como jobs noturnos, o agendamento flexível de recursos (FlexRS) custa menos para o processamento em lote. Esses jobs flexíveis são colocados em uma fila com a garantia de que eles serão recuperados para execução dentro de seis horas.

Padrões de IA em tempo real prontos para uso

Ativados com padrões prontos para uso, os recursos de IA em tempo real do Dataflow permitem reações em tempo real, com inteligência quase humana para grandes fluxos de eventos. Os clientes podem criar soluções inteligentes que vão desde análise preditiva e detecção de anomalias até personalização em tempo real e outros casos de uso de análise avançada. 

Veja todos os recursos

Documentação

Documentação

Tutorial
Guia de início rápido do Dataflow com Python

Configure um projeto do Google Cloud e o ambiente de desenvolvimento em Python, receba o SDK do Apache Beam Python e execute e modifique o exemplo do WordCount no serviço do Dataflow..

Tutorial
Como usar o Dataflow SQL

Crie uma consulta SQL e implante um job do Dataflow para executar sua consulta pela IU do Dataflow SQL.

Tutorial
Como instalar o SDK do Apache Beam

Instale o SDK do Apache Beam para executar pipelines no serviço do Dataflow.

Tutorial
Machine learning com o Apache Beam e o TensorFlow

Pré-processe, treine e faça previsões em um modelo de machine learning de energia molecular usando o Apache Beam, o Dataflow e o TensorFlow.

Tutorial
Tutorial contagem de palavras do Dataflow com Java

Neste tutorial, você aprenderá os princípios básicos do serviço do Cloud Dataflow. Para isso, execute um exemplo de pipeline simples por meio do SDK do Apache Beam para Java.

Tutorial
Laboratórios práticos: como processar dados com o Google Cloud Dataflow

Saiba como processar um conjunto de dados em tempo real baseado em texto usando Python e Dataflow. Depois, armazene-o no BigQuery.

Tutorial
Laboratórios práticos: processamento de stream com Pub/Sub e Dataflow

Saiba como usar o Dataflow para ler mensagens publicadas em tópicos do Pub/Sub, exibir as mensagens por carimbo de data/hora e gravar as mensagens no Cloud Storage.

Princípios básicos do Google Cloud
Recursos do Dataflow

Encontre informações sobre preços, cotas de recursos, perguntas frequentes e muito mais.

Casos de uso

Casos de uso

Caso de uso
Análise de streams

A análise de streams do Google torna os dados mais organizados, úteis e acessíveis assim que são gerados. Integrada ao Dataflow junto com o Pub/Sub e o BigQuery, nossa solução de streaming oferece os recursos necessários para ingerir, processar e analisar volumes flutuantes de dados em tempo real, o que possibilita insights comerciais em tempo real. Este provisionamento abstraído reduz a complexidade e torna a análise de streams mais acessível para os analistas e engenheiros de dados.

Fluxo em cinco colunas: desde o gatilho até a ingestão, o enriquecimento, a análise e a ativação. Cada coluna tem uma seção superior e inferior. Na parte superior da coluna "Gatilho", há dispositivos de borda (dispositivos móveis, Web, Data Store e IoT) que fluem até o Pub/Sub na coluna "Ingestão" e na coluna "Enriquecimento" e "Apache Beam" / "Dataflow Streaming", depois até as caixas "Análise" e "Ativação", em que voltam para os dispositivos de borda na Col 1. No Apache Beam na col 3, vão e voltam da coluna "Análise" no BigQuery, no AI Platform e no Bigtable: todos os três são transmitidos até Preenchimento / Reprocessamento - Dataflow Batch. O fluxo vai do BigQuery à coluna Ativar, do Data Studio, do BI de terceiros e do Cloud Functions, que flui de volta para os dispositivos de borda na coluna 1. Na parte inferior das colunas, aparece "Fluxo de criação: o acionador diz "Configurar a origem para enviar uma mensagem de evento ao tópico do Pub/Sub". Flui até a coluna "Ingestão" (Criar tópico e assinatura do Pub/Sub), até "Enriquecer" (Deploy streaming ou batch job do Dataflow usando modelos, CLI ou notebooks). Depois, até "Análise" (Criar conjunto de dados, tabelas e modelos para receber fluxo) e até "Ativar" (Criar painéis em tempo real e chamar APIs externas).
Caso de uso
IA em tempo real

O Dataflow adiciona eventos de streaming ao Vertex AI e ao TensorFlow Extended (TFX) do Google Cloud para permitir análise preditiva, detecção de fraudes, personalização em tempo real e outros casos de uso de análise avançada. O TFX usa o Dataflow e o Apache Beam como mecanismo de processamento de dados distribuído para viabilizar vários aspectos do ciclo de vida do ML, tudo compatível com CI/CD para ML por meio de pipelines do Kubeflow.

Caso de uso
Processamento de dados de sensor e registro

Revele insights de negócios em sua rede global de dispositivos com uma plataforma inteligente de Internet das Coisas (IoT).

Todos os recursos

Todos os recursos

Escalonamento automático vertical: novo no Dataflow Prime Ajusta dinamicamente a capacidade de computação alocada para cada worker com base na utilização. O escalonamento automático vertical funciona junto com o escalonamento automático horizontal para escalonar perfeitamente os workers de acordo com as necessidades do pipeline.
Ajuste correto - novo no Dataflow Prime O ajuste correto cria pools de recursos específicos para o estágio, otimizados para cada estágio para reduzir o desperdício de recursos.
Diagnósticos inteligentes: novo no Dataflow Prime Um conjunto de recursos, incluindo: 1) gerenciamento de pipeline de dados com base em SLO, 2) recursos de visualização de jobs que oferecem aos usuários uma maneira visual de inspecionar o gráfico de jobs e identificar os gargalos, 3) recomendações automáticas para identificar e ajustar problemas de desempenho e disponibilidade. 
Streaming Engine O Streaming Engine separa a computação do armazenamento de estado, migrando partes da execução do pipeline das VMs de worker para o back-end do serviço do Dataflow. Isso melhora significativamente o escalonamento automático e a latência dos dados.
Escalonamento automático horizontal O escalonamento automático horizontal permite que o serviço do Dataflow escolha automaticamente o número apropriado de instâncias de workers necessárias para executar o job. O serviço do Dataflow também realoca dinamicamente mais ou menos workers durante o tempo de execução de acordo com as características do job.
Dataflow Shuffle O Dataflow Shuffle com base em serviços migra as operações de embaralhamento, usadas para agrupar e integrar dados, das VMs de worker para o back-end de serviço do Dataflow, o que possibilita pipelines em lote. O escalonamento dos pipelines em lote é feito para centenas de terabytes. O processo não tem complicações e não precisa de ajustes.
SQL do Dataflow O SQL do Dataflow permite que você use as habilidades de SQL para desenvolver pipelines de streaming do Dataflow diretamente na IU da Web do BigQuery. É possível integrar dados de streaming do Pub/Sub com arquivos no Cloud Storage ou tabelas no BigQuery, além de criar painéis em tempo real usando as Planilhas Google ou outras ferramentas de BI e gravar resultados no BigQuery.
Programação flexível de recursos (FlexRS) O Dataflow FlexRS reduz os custos do processamento em lote usando técnicas avançadas de programação, o serviço do Dataflow Shuffle e uma combinação de instâncias de máquinas virtuais preemptivas e VMs comuns. 
Modelos do Dataflow Os modelos do Dataflow permitem que você compartilhe facilmente os pipelines com os membros da equipe e por toda a organização, ou aproveite os vários modelos disponibilizados pelo Google para implementar tarefas simples, mas úteis, de processamento de dados. Isso inclui os modelos de captura de dados de alterações em casos de uso de análise de streaming. Com o Flex Templates, é possível criar um modelo sem nenhum pipeline do Dataflow.
Integração de notebooks Crie pipelines, de modo iterativo, do zero com os Vertex AI Notebooks e implemente com o executor do Dataflow. Crie pipelines do Apache Beam passo a passo ao inspecionar os gráficos dos pipelines em um fluxo de trabalho read-eval-print-loop (REPL). Os notebooks são disponibilizados por meio do Vertex AI do Google e permitem escrever pipelines em um ambiente intuitivo com os frameworks mais recentes de ciência de dados e machine learning.
Captura de dados de alterações em tempo real Sincronize ou replique dados de maneira confiável e com latência mínima em fontes de dados heterogêneas para potencializar a análise de streaming. Modelos extensíveis do Dataflow se integram ao Datastream para replicar dados do Cloud Storage para o BigQuery, PostgreSQL ou Cloud Spanner. O conector de Debezium do Apache Beam fornece uma opção de código aberto para ingerir alterações de dados do MySQL, PostgreSQL, SQL Server e Db2.
Monitoramento inline O monitoramento inline do Dataflow permite acessar diretamente as métricas do job para ajudar na solução de problemas de pipelines em lote e de streaming. É possível acessar gráficos de monitoramento na visibilidade de nível do worker e da etapa. Além disso, você pode configurar alertas para condições, como dados desatualizados e latência alta do sistema.
Chaves de criptografia gerenciadas pelo cliente É possível criar um pipeline em lote ou de streaming protegido por uma chave de criptografia gerenciada pelo cliente (CMEK, na sigla em inglês) ou acessar dados protegidos pela CMEK em origens e coletores.
VPC Service Controls do Dataflow A integração do Dataflow com o VPC Service Controls protege ainda mais seu ambiente de processamento de dados ao melhorar sua capacidade de reduzir o risco de exfiltração de dados.
IPs privados A desativação de IPs públicos permite proteger melhor a infraestrutura de processamento de dados. Ao não utilizar endereços IP públicos para workers do Dataflow, você também diminui o número de endereços IP públicos contabilizados na sua cota do projeto do Google Cloud.

Preços

Preços

Os jobs do Dataflow são cobrados por segundo, com base no uso real de workers em lote ou de streaming do Dataflow. Recursos adicionais, como Cloud Storage ou Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.

Parceiros

Descubra soluções de parceiros

Os parceiros do Google Cloud desenvolveram integrações com o Dataflow para viabilizar de maneira rápida e fácil tarefas avançadas de processamento de dados de qualquer tamanho.