Dataflow
Processamento unificado de dados de stream e em lote, sem servidor, rápido e econômico.
Novos clientes recebem US$ 300 em créditos para gastar no Dataflow.
-
Serviço de processamento de dados totalmente gerenciado
-
Provisionamento e gerenciamento automatizados dos recursos de processamento
-
Escalonamento automático horizontal de recursos de workers para maximizar a utilização de recursos
-
Inovações promovidas pela comunidade de OSS com o SDK do Apache Beam
-
Processamento único confiável e consistente
Vantagens
Análise de dados de streaming com velocidade
O Dataflow permite o desenvolvimento rápido e simplificado de Data pipelines de streaming com menor latência de dados.
Operações e gerenciamento simplificados
Com a abordagem sem servidor do Dataflow removendo a sobrecarga operacional das cargas de trabalho da engenharia de dados, as equipes podem se concentrar na programação em vez de gerenciar clusters de servidores.
Reduza o custo total de propriedade
O escalonamento automático de recursos com o potencial de processamento em lote com custo otimizado permite ao Dataflow oferecer uma capacidade praticamente ilimitada para gerenciar os altos e baixos das suas cargas de trabalho sem gastar demais.
Principais recursos
Principais recursos
Escalonamento automático de recursos e reequilíbrio dinâmico de trabalho
Minimize a latência do pipeline, maximize a utilização de recursos e reduza o custo de processamento por registro de dados com escalonamento automático de recursos e visibilidade multidimensional dos dados. As entradas de dados são particionadas de forma automática e constantemente rebalanceadas para equilibrar a utilização de recursos do worker e reduzir o efeito das “teclas de atalho” no desempenho do pipeline.
Programação flexível e preços para processamento em lote
Para o processamento com flexibilidade na hora da programação do job, como jobs noturnos, a programação flexível de recursos (FlexRS) custa menos para o processamento em lote. Esses jobs flexíveis são colocados em uma fila com a garantia de que eles serão recuperados para execução em uma janela de seis horas.
Padrões de IA em tempo real prontos para uso
Ativados com padrões prontos para uso, os recursos de IA em tempo real do Dataflow permitem reações em tempo real, com inteligência quase humana para grandes fluxos de eventos. Os clientes podem criar soluções inteligentes que vão desde análise preditiva e detecção de anomalias até personalização em tempo real e outros casos de uso de análise avançada.
Documentação
Documentação
Serverless Data Processing with Dataflow: Foundations
Treinamento de noções básicas sobre tudo que você precisa saber sobre o Dataflow.
Guia de início rápido do Dataflow com Python
Configure um projeto do Google Cloud e o ambiente de desenvolvimento em Python, receba o SDK do Apache Beam Python e execute e modifique o exemplo do WordCount no serviço do Dataflow..
Como usar o Dataflow SQL
Crie uma consulta SQL e implante um job do Dataflow para executar sua consulta pela IU do Dataflow SQL.
Como instalar o SDK do Apache Beam
Instale o SDK do Apache Beam para executar pipelines no serviço do Dataflow.
Machine learning com o Apache Beam e o TensorFlow
Pré-processe, treine e faça previsões em um modelo de machine learning de energia molecular usando o Apache Beam, o Dataflow e o TensorFlow.
Tutorial contagem de palavras do Dataflow com Java
Neste tutorial, você aprenderá os princípios básicos do serviço do Cloud Dataflow. Para isso, execute um exemplo de pipeline simples por meio do SDK do Apache Beam para Java.
Laboratórios práticos: como processar dados com o Google Cloud Dataflow
Saiba como processar um conjunto de dados em tempo real baseado em texto usando Python e Dataflow. Depois, armazene-o no BigQuery.
Laboratórios práticos: processamento de stream com Pub/Sub e Dataflow
Saiba como usar o Dataflow para ler mensagens publicadas em tópicos do Pub/Sub, exibir as mensagens por carimbo de data/hora e gravar as mensagens no Cloud Storage.
Recursos do Dataflow
Encontre informações sobre preços, cotas de recursos, perguntas frequentes e muito mais.
Casos de uso
Casos de uso
A análise de streams do Google torna os dados mais organizados, úteis e acessíveis assim que são gerados. Integrada ao Dataflow junto com o Pub/Sub e o BigQuery, nossa solução de streaming oferece os recursos necessários para ingerir, processar e analisar volumes flutuantes de dados em tempo real, o que possibilita insights comerciais em tempo real. Este provisionamento abstraído reduz a complexidade e torna a análise de streams mais acessível para os analistas e engenheiros de dados.
O Dataflow adiciona eventos de streaming ao Vertex AI e ao TensorFlow Extended (TFX) do Google Cloud para permitir análise preditiva, detecção de fraudes, personalização em tempo real e outros casos de uso de análise avançada. O TFX usa o Dataflow e o Apache Beam como mecanismo de processamento de dados distribuído para viabilizar vários aspectos do ciclo de vida do ML, tudo compatível com CI/CD para ML por meio de pipelines do Kubeflow.
Revele insights de negócios em sua rede global de dispositivos com uma plataforma inteligente de Internet das Coisas (IoT).
Todos os recursos
Todos os recursos
Escalonamento automático vertical: novo no Dataflow Prime | Ajusta dinamicamente a capacidade de computação alocada para cada worker com base na utilização. O escalonamento automático vertical funciona junto com o escalonamento automático horizontal para escalonar perfeitamente os workers de acordo com as necessidades do pipeline. |
Ajuste correto - novo no Dataflow Prime | O ajuste correto cria pools de recursos específicos para o estágio, otimizados para cada estágio para reduzir o desperdício de recursos. |
Diagnósticos inteligentes: novo no Dataflow Prime | Um conjunto de recursos, incluindo: 1) gerenciamento de pipeline de dados com base em SLO, 2) recursos de visualização de jobs que oferecem aos usuários uma maneira visual de inspecionar o gráfico de jobs e identificar os gargalos, 3) recomendações automáticas para identificar e ajustar problemas de desempenho e disponibilidade. |
Streaming Engine | O Streaming Engine separa a computação do armazenamento de estado, migrando partes da execução do pipeline das VMs de worker para o back-end do serviço do Dataflow. Isso melhora significativamente o escalonamento automático e a latência dos dados. |
Escalonamento automático horizontal | O escalonamento automático horizontal permite que o serviço do Dataflow escolha automaticamente o número apropriado de instâncias de workers necessárias para executar o job. O serviço do Dataflow também realoca dinamicamente mais ou menos workers durante o tempo de execução de acordo com as características do job. |
Dataflow Shuffle | O Dataflow Shuffle com base em serviços migra as operações de embaralhamento, usadas para agrupar e integrar dados, das VMs de worker para o back-end de serviço do Dataflow, o que possibilita pipelines em lote. O escalonamento dos pipelines em lote é feito para centenas de terabytes. O processo não tem complicações e não precisa de ajustes. |
SQL do Dataflow | O SQL do Dataflow permite que você use as habilidades de SQL para desenvolver pipelines de streaming do Dataflow diretamente na IU da Web do BigQuery. É possível integrar dados de streaming do Pub/Sub com arquivos no Cloud Storage ou tabelas no BigQuery, além de criar painéis em tempo real usando as Planilhas Google ou outras ferramentas de BI e gravar resultados no BigQuery. |
Programação flexível de recursos (FlexRS) | O Dataflow FlexRS reduz os custos do processamento em lote usando técnicas avançadas de programação, o serviço do Dataflow Shuffle e uma combinação de instâncias de máquinas virtuais preemptivas e VMs comuns. |
Modelos do Dataflow | Os modelos do Dataflow permitem que você compartilhe facilmente os pipelines com os membros da equipe e por toda a organização, ou aproveite os vários modelos disponibilizados pelo Google para implementar tarefas simples, mas úteis, de processamento de dados. Isso inclui os modelos de captura de dados de alterações em casos de uso de análise de streaming. Com o Flex Templates, é possível criar um modelo sem nenhum pipeline do Dataflow. |
Integração de notebooks | Crie pipelines, de modo iterativo, do zero com os Vertex AI Notebooks e implemente com o executor do Dataflow. Crie pipelines do Apache Beam passo a passo ao inspecionar os gráficos dos pipelines em um fluxo de trabalho read-eval-print-loop (REPL). Os notebooks são disponibilizados por meio do Vertex AI do Google e permitem escrever pipelines em um ambiente intuitivo com os frameworks mais recentes de ciência de dados e machine learning. |
Captura de dados de alterações em tempo real | Sincronize ou replique dados de maneira confiável e com latência mínima em fontes de dados heterogêneas para potencializar a análise de streaming. Modelos extensíveis do Dataflow se integram ao Datastream para replicar dados do Cloud Storage para o BigQuery, PostgreSQL ou Cloud Spanner. O conector de Debezium do Apache Beam fornece uma opção de código aberto para ingerir alterações de dados do MySQL, PostgreSQL, SQL Server e Db2. |
Monitoramento inline | O monitoramento inline do Dataflow permite acessar diretamente as métricas do job para ajudar na solução de problemas de pipelines em lote e de streaming. É possível acessar gráficos de monitoramento na visibilidade de nível do worker e da etapa. Além disso, você pode configurar alertas para condições, como dados desatualizados e latência alta do sistema. |
Chaves de criptografia gerenciadas pelo cliente | É possível criar um pipeline em lote ou de streaming protegido por uma chave de criptografia gerenciada pelo cliente (CMEK, na sigla em inglês) ou acessar dados protegidos pela CMEK em origens e coletores. |
VPC Service Controls do Dataflow | A integração do Dataflow com o VPC Service Controls protege ainda mais seu ambiente de processamento de dados ao melhorar sua capacidade de reduzir o risco de exfiltração de dados. |
IPs privados | A desativação de IPs públicos permite proteger melhor a infraestrutura de processamento de dados. Ao não utilizar endereços IP públicos para workers do Dataflow, você também diminui o número de endereços IP públicos contabilizados na sua cota do projeto do Google Cloud. |
Preços
Preços
Os jobs do Dataflow são cobrados por segundo, com base no uso real de workers em lote ou de streaming do Dataflow. Recursos adicionais, como Cloud Storage ou Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.
Os produtos de IA do Cloud estão em conformidade com nossas políticas de SLA. Elas oferecem garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.