O Google Cloud é líder no relatório Forrester Wave de 2023: plataformas de dados de streaming.  Saiba mais.
Ir para
Dataflow

Dataflow

Processamento unificado de dados de stream e em lote, sem servidor, rápido e econômico.

Novos clientes recebem US$ 300 em créditos para gastar no Dataflow.

  • Ativação e insights em tempo real com streaming de dados e machine learning

  • Serviço de processamento de dados totalmente gerenciado

  • Provisionamento e gerenciamento automatizados dos recursos de processamento

  • Escalonamento automático horizontal e vertical de recursos de workers para maximizar a utilização de recursos

  • Inovações promovidas pela comunidade de OSS com o SDK do Apache Beam

Vantagens

Análise de dados de streaming com velocidade

O Dataflow permite o desenvolvimento rápido e simplificado de Data pipelines de streaming com menor latência de dados.

Operações e gerenciamento simplificados

Com a abordagem sem servidor do Dataflow removendo a sobrecarga operacional das cargas de trabalho da engenharia de dados, as equipes podem se concentrar na programação em vez de gerenciar clusters de servidores.

Reduza o custo total de propriedade

O escalonamento automático de recursos com o potencial de processamento em lote com custo otimizado permite ao Dataflow oferecer uma capacidade praticamente ilimitada para gerenciar os altos e baixos das suas cargas de trabalho sem gastar demais.

Principais recursos

Principais recursos

IA em tempo real pronta para usar

Ativado por recursos de ML prontos para uso, incluindo GPU NVIDIA e padrões prontos para uso, os recursos de IA em tempo real do Dataflow permitem reações em tempo real com inteligência quase humana para grandes torrents de eventos.

Os clientes podem criar soluções inteligentes que vão desde análise preditiva e detecção de anomalias até personalização em tempo real e outros casos de uso de análise avançada.

Treine, implante e gerencie pipelines completos de machine learning (ML), incluindo inferência local e remota com pipelines em lote e de streaming. 

Escalonamento automático de recursos e reequilíbrio dinâmico de trabalho

Minimize a latência do pipeline, maximize a utilização de recursos e reduza o custo de processamento por registro de dados com escalonamento automático de recursos e visibilidade multidimensional dos dados. As entradas de dados são particionadas de forma automática e constantemente rebalanceadas para equilibrar a utilização de recursos do worker e reduzir o efeito das “teclas de atalho” no desempenho do pipeline.

Monitoramento e observabilidade

Observar os dados em cada etapa de um pipeline do Dataflow. Diagnostique problemas e solucione problemas de maneira eficaz com amostras de dados reais. Compare diferentes execuções do job para identificar problemas com facilidade.

Ver todos os recursos

Documentação

Documentação

Tutorial

Serverless Data Processing with Dataflow: Foundations

Treinamento de noções básicas sobre tudo que você precisa saber sobre o Dataflow.
Tutorial

Guia de início rápido do Dataflow com Python

Configure um projeto do Google Cloud e o ambiente de desenvolvimento em Python, receba o SDK do Apache Beam Python e execute e modifique o exemplo do WordCount no serviço do Dataflow..
Tutorial

Como usar o Dataflow SQL

Crie uma consulta SQL e implante um job do Dataflow para executar sua consulta pela IU do Dataflow SQL.
Tutorial

Como instalar o SDK do Apache Beam

Instale o SDK do Apache Beam para executar pipelines no serviço do Dataflow.
Tutorial

Machine learning com o Apache Beam e o TensorFlow

Pré-processe, treine e faça previsões em um modelo de machine learning de energia molecular usando o Apache Beam, o Dataflow e o TensorFlow.
Tutorial

Tutorial contagem de palavras do Dataflow com Java

Neste tutorial, você aprenderá os princípios básicos do serviço do Cloud Dataflow. Para isso, execute um exemplo de pipeline simples por meio do SDK do Apache Beam para Java.
Tutorial

Laboratórios práticos: como processar dados com o Google Cloud Dataflow

Saiba como processar um conjunto de dados em tempo real baseado em texto usando Python e Dataflow. Depois, armazene-o no BigQuery.
Tutorial

Laboratórios práticos: processamento de stream com Pub/Sub e Dataflow

Saiba como usar o Dataflow para ler mensagens publicadas em tópicos do Pub/Sub, exibir as mensagens por carimbo de data/hora e gravar as mensagens no Cloud Storage.
Princípios básicos do Google Cloud

Recursos do Dataflow

Encontre informações sobre preços, cotas de recursos, perguntas frequentes e muito mais.

Não encontrou o que procura?

Casos de uso

Casos de uso

Caso de uso
Análise de streams

A análise de streams do Google torna os dados mais organizados, úteis e acessíveis assim que são gerados. Integrada ao Dataflow junto com o Pub/Sub e o BigQuery, nossa solução de streaming oferece os recursos necessários para ingerir, processar e analisar volumes flutuantes de dados em tempo real, o que possibilita insights comerciais em tempo real. Este provisionamento abstraído reduz a complexidade e torna a análise de streams mais acessível para os analistas e engenheiros de dados.

Fluxo em cinco colunas: desde o gatilho até a ingestão, o enriquecimento, a análise e a ativação. Cada coluna tem uma seção superior e inferior. Na parte superior da coluna "Gatilho", há dispositivos de borda (dispositivos móveis, Web, Data Store e IoT) que fluem até o Pub/Sub na coluna "Ingestão" e na coluna "Enriquecimento" e "Apache Beam" / "Dataflow Streaming", depois até as caixas "Análise" e "Ativação", em que voltam para os dispositivos de borda na Col 1. No Apache Beam na col 3, vão e voltam da coluna "Análise" no BigQuery, no AI Platform e no Bigtable: todos os três são transmitidos até Preenchimento / Reprocessamento - Dataflow Batch. O fluxo vai do BigQuery à coluna Ativar, do Data Studio, do BI de terceiros e do Cloud Functions, que flui de volta para os dispositivos de borda na coluna 1. Na parte inferior das colunas, aparece "Fluxo de criação: o acionador diz "Configurar a origem para enviar uma mensagem de evento ao tópico do Pub/Sub". Flui até a coluna "Ingestão" (Criar tópico e assinatura do Pub/Sub), até "Enriquecer" (Deploy streaming ou batch job do Dataflow usando modelos, CLI ou notebooks). Depois, até "Análise" (Criar conjunto de dados, tabelas e modelos para receber fluxo) e até "Ativar" (Criar painéis em tempo real e chamar APIs externas).
Caso de uso
IA em tempo real

O Dataflow adiciona eventos de streaming ao Vertex AI e ao TensorFlow Extended (TFX) do Google Cloud para permitir análise preditiva, detecção de fraudes, personalização em tempo real e outros casos de uso de análise avançada. O TFX usa o Dataflow e o Apache Beam como mecanismo de processamento de dados distribuído para viabilizar vários aspectos do ciclo de vida do ML, tudo compatível com CI/CD para ML por meio de pipelines do Kubeflow.

Caso de uso
Processamento de dados de sensor e registro

Revele insights de negócios em sua rede global de dispositivos com uma plataforma inteligente de Internet das Coisas (IoT).

Todos os recursos

Todos os recursos

ML do Dataflow
Implante e gerencie pipelines de machine learning (ML) com facilidade. Use modelos de ML para fazer inferências locais e remotas com pipelines de streaming e em lote. Use ferramentas de processamento de dados para preparar seus dados para o treinamento de modelo e processar os resultados dos modelos.
GPU do Dataflow
Sistema de processamento de dados otimizado para desempenho e custo do uso da GPU. Suporte a uma grande variedade de GPUs NVIDIA.
Escalonamento automático vertical
Ajusta dinamicamente a capacidade de computação alocada para cada worker com base na utilização. O escalonamento automático vertical funciona junto com o escalonamento automático horizontal para escalonar perfeitamente os workers de acordo com as necessidades do pipeline.
Escalonamento automático horizontal
O escalonamento automático horizontal permite que o serviço do Dataflow escolha automaticamente o número apropriado de instâncias de workers necessárias para executar o job. O serviço do Dataflow também realoca dinamicamente mais ou menos workers durante o tempo de execução de acordo com as características do job.
Ajuste direito
O ajuste correto cria pools de recursos específicos para o estágio, otimizados para cada estágio para reduzir o desperdício de recursos.
Diagnóstico inteligente
Um conjunto de recursos, incluindo: 1) gerenciamento de pipeline de dados com base em SLO, 2) recursos de visualização de jobs que oferecem aos usuários uma maneira visual de inspecionar o gráfico de jobs e identificar os gargalos, 3) recomendações automáticas para identificar e ajustar problemas de desempenho e disponibilidade.
Streaming Engine
O Streaming Engine separa a computação do armazenamento de estado, migrando partes da execução do pipeline das VMs de worker para o back-end do serviço do Dataflow. Isso melhora significativamente o escalonamento automático e a latência dos dados.
Dataflow Shuffle
O Dataflow Shuffle com base em serviços migra as operações de embaralhamento, usadas para agrupar e integrar dados, das VMs de worker para o back-end de serviço do Dataflow, o que possibilita pipelines em lote. O escalonamento dos pipelines em lote é feito para centenas de terabytes. O processo não tem complicações e não precisa de ajustes.
SQL do Dataflow
O SQL do Dataflow permite que você use as habilidades de SQL para desenvolver pipelines de streaming do Dataflow diretamente na IU da Web do BigQuery. É possível integrar dados de streaming do Pub/Sub com arquivos no Cloud Storage ou tabelas no BigQuery, além de criar painéis em tempo real usando as Planilhas Google ou outras ferramentas de BI e gravar resultados no BigQuery.
Programação flexível de recursos (FlexRS)
O Dataflow FlexRS reduz os custos do processamento em lote usando técnicas avançadas de programação, o serviço do Dataflow Shuffle e uma combinação de instâncias de máquinas virtuais preemptivas e VMs comuns.
Dataflow
Os modelos do Dataflow permitem que você compartilhe facilmente os pipelines com os membros da equipe e por toda a organização, ou aproveite os vários modelos disponibilizados pelo Google para implementar tarefas simples, mas úteis, de processamento de dados. Isso inclui os modelos de captura de dados de alterações em casos de uso de análise de streaming. Com o Flex Templates, é possível criar um modelo sem nenhum pipeline do Dataflow.
Integração de notebooks
Crie pipelines, de modo iterativo, do zero com os Vertex AI Notebooks e implemente com o executor do Dataflow. Crie pipelines do Apache Beam passo a passo ao inspecionar os gráficos dos pipelines em um fluxo de trabalho read-eval-print-loop (REPL). Os notebooks são disponibilizados por meio do Vertex AI do Google e permitem escrever pipelines em um ambiente intuitivo com os frameworks mais recentes de ciência de dados e machine learning.
Captura de dados de alterações em tempo real
Sincronize ou replique dados de maneira confiável e com latência mínima em fontes de dados heterogêneas para potencializar a análise de streaming. Modelos extensíveis do Dataflow se integram ao Datastream para replicar dados do Cloud Storage para o BigQuery, PostgreSQL ou Cloud Spanner. O conector de Debezium do Apache Beam fornece uma opção de código aberto para ingerir alterações de dados do MySQL, PostgreSQL, SQL Server e Db2.
Monitoramento inline
O monitoramento inline do Dataflow permite acessar diretamente as métricas do job para ajudar na solução de problemas de pipelines em lote e de streaming. É possível acessar gráficos de monitoramento na visibilidade de nível do worker e da etapa. Além disso, você pode configurar alertas para condições, como dados desatualizados e latência alta do sistema.
Chaves de criptografia gerenciadas pelo cliente
É possível criar um pipeline em lote ou de streaming protegido por uma chave de criptografia gerenciada pelo cliente (CMEK, na sigla em inglês) ou acessar dados protegidos pela CMEK em origens e coletores.
VPC Service Controls do Dataflow
A integração do Dataflow com o VPC Service Controls protege ainda mais seu ambiente de processamento de dados ao melhorar sua capacidade de reduzir o risco de exfiltração de dados.
IPs privados
A desativação de IPs públicos permite proteger melhor a infraestrutura de processamento de dados. Ao não utilizar endereços IP públicos para workers do Dataflow, você também diminui o número de endereços IP públicos contabilizados na sua cota do projeto do Google Cloud.

Preços

Preços

Os jobs do Dataflow são cobrados por segundo, com base no uso real de workers em lote ou de streaming do Dataflow. Recursos adicionais, como Cloud Storage ou Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.

Parceiros

Descubra soluções de parceiros

Os parceiros do Google Cloud desenvolveram integrações com o Dataflow para viabilizar de maneira rápida e fácil tarefas avançadas de processamento de dados de qualquer tamanho.


Os produtos de IA do Cloud estão em conformidade com nossas políticas de SLA. Elas oferecem garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Transformação digital
  • Acelere a recuperação dos negócios e garanta um futuro melhor. Use soluções que permitam o uso de nuvem híbrida e de várias nuvens, gerem insights inteligentes e mantenham seus funcionários conectados.
  • Economize com nossa abordagem de preços transparente
  • Os preços de pagamento por utilização do Google Cloud oferecem economia automática com base no uso mensal e preços com desconto para recursos pré-pagos. Entre em contato hoje mesmo para receber uma cotação.
Google Cloud