Cloud Dataflow

Processamento simplificado de dados de stream e em lote, com a mesma confiabilidade e expressividade

Teste gratuitamente

Desenvolvimento mais rápido e gerenciamento mais simples

O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aprimorar dados nos modos de stream (tempo real) e em lote (do histórico) com a mesma confiabilidade e expressividade. Você não precisa mais encontrar soluções alternativas complexas. E, com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, ao mesmo tempo em que paga apenas por aquilo que usa.

O Cloud Dataflow revela casos de uso transformacionais em vários setores, incluindo:

  • check análise de sequência de cliques, pontos de venda e segmentação no varejo
  • check detecção de fraude em serviços financeiros
  • check experiência do usuário personalizada em jogos
  • check análises da IoT na indústria, em serviços de saúde e em logística
faster-development-easier-management

Desenvolvimento acelerado para dados em lote e de stream

O Cloud Dataflow possibilita o desenvolvimento rápido e simplificado de canais por meio das APIs expressivas de Java e Python no SDK do Apache Beam. Ele fornece um conjunto avançado de primitivos de análise de sessão e janelas, assim como um ecossistema de conectores de coletor e origem. Além disso, com o modelo de desenvolvimento exclusivo e unificado do Beam, é possível reutilizar mais códigos nos canais de stream e em lote.

accelerate-development-with-no-compromises

Simplifique operações e gerenciamento

A abordagem sem servidor do GCP remove a sobrecarga operacional com o processamento automático de desempenho, escalonabilidade, disponibilidade, segurança e conformidade. Desta forma, os usuários podem se concentrar na programação em vez de precisar gerenciar clusters de servidores. A integração com o Stackdriver, a solução de monitoramento e geração de registros unificada do GCP, permite que você faça o monitoramento e resolva problemas nos seus canais enquanto eles estão em execução. A visualização avançada, a geração de registros e o sistema de alertas avançado ajudam você a identificar e a tomar medidas em relação a possíveis problemas.

simplify-operations-and-management

Desenvolva a base para o aprendizado de máquina

Use o Cloud Dataflow como um elemento de integração prático para incluir a análise preditiva na detecção de fraude, na personalização em tempo real e em casos de uso semelhantes. Para isso, adicione modelos do Cloud Machine Learning com base no TensorFlow e APIs nos seus canais de processamento de dados.

build-on-a-foundation-for-machine-learning

Use ferramentas que você conhece e prefere

O Cloud Dataflow se integra perfeitamente aos serviços do GCP para a ingestão de eventos de streaming (Cloud Pub/Sub), de armazenamento de dados (BigQuery), de aprendizado de máquina (Cloud Machine Learning) e muito mais. Com o SDK com base em Beam, os desenvolvedores também podem criar extensões personalizadas e até mesmo escolher mecanismos de execução alternativos, como o Apache Spark, por meio do Cloud Dataproc ou no local. Para os usuários do Apache Kafka, um conector do Cloud Dataflow facilita a integração com o GCP.

use-your-favorite-and-familiar-tools

Transformação de dados com o Cloud Dataflow

diagram-dataflow

RECURSOS DO CLOUD DATAFLOW

Gerenciamento de recursos automatizado
O Cloud Dataflow automatiza o provisionamento e o gerenciamento de recursos em processamento para reduzir a latência e maximizar a utilização. Você não precisa mais executar instâncias manualmente ou reservá-las.
Reequilíbrio dinâmico de trabalho
O particionamento automatizado e otimizado do trabalho reequilibra as atividades atrasadas de maneira dinâmica. Não é preciso procurar “teclas de atalho” ou fazer o pré-processamento dos seus dados de entrada.
Processamento único, confiável e consistente
Fornece suporte integrado para a execução tolerante a falhas consistente e correta, independentemente do tamanho dos dados, do tamanho do cluster, do padrão de processamento e da complexidade do canal.
Escalonamento automático horizontal
Escalonamento automático horizontal do número de trabalhadores para alcançar os melhores resultados de capacidade com o melhor custo-benefício.
Modelo de programação unificado
O SDK do Apache Beam oferece operações avançadas, similares ao MapReduce e de igual potência, além de sistema de gestão de janelas avançado e controle de correção detalhado tanto para os dados de stream quanto em lote.
Inovações voltadas para a comunidade
Os desenvolvedores que quiserem estender o modelo de programação do Cloud Dataflow podem fazer bifurcações e/ou contribuir para o Apache Beam.

Cloud Dataflow X Cloud Dataproc: qual devo usar?

Cloud Dataproc e Cloud Dataflow podem ser usados no processamento de dados, e há uma sobreposição no lote e nos recursos de streaming. Como você decide qual produto é mais indicado para o ambiente?
Dataproc X Dataflow

Cloud Dataproc

O Cloud Dataproc é bom para ambientes que dependam de componentes específicos do ecossistema de Big Data do Apache:

  • check ferramentas/pacotes
  • check canais
  • check conjuntos de habilidades de recursos existentes

Cloud Dataflow

O Cloud Dataflow normalmente é a opção preferida para ambientes ecologicamente corretos:

  • check menos sobrecarga operacional
  • check abordagem unificada para desenvolvimento de canais em lote ou streaming
  • check usa o Apache Beam
  • check aceita portabilidade de canal em Cloud Dataflow, Apache Spark, e Apache Flink como tempos de execução

Cargas de trabalho recomendadas

CARGAS DE TRABALHO CLOUD DATAPROC CLOUD DATAFLOW
Processamento de stream (ETL) check
Processamento em lote (ETL) check check
Processamento iterativo e notebooks check
Aprendizado de máquina com Spark ML check
Pré-processamento para aprendizado de máquina check (com o Cloud ML Engine)

Parcerias e integrações

Desenvolvedores de terceiros e parceiros do Google Cloud Platform desenvolveram integrações com o Dataflow para viabilizar tarefas de processamento de dados com rapidez e facilidade.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Ao executar nossos canais no Cloud Dataflow, podemos nos concentrar na programação sem termos que nos preocupar com a implantação e a manutenção de instâncias que executam nossos códigos (uma marca registrada do GCP, de modo geral).”

- Jibran Saithi Arquiteto-chefe da Qubit

Preços amigáveis ao usuário

Os jobs do Cloud Dataflow são cobrados em incrementos por segundo, com base no uso real de trabalhadores de stream ou em lote do Cloud Dataflow. Os jobs que usam recursos adicionais do GCP, como o Cloud Storage ou o Cloud Pub/Sub, são cobrados de acordo com os respectivos preços dos serviços utilizados.

Iowa Óregon Virgínia do Norte Carolina do Sul Montreal São Paulo Bélgica Londres Holanda Frankfurt Mumbai Cingapura Sydney Taiwan Tóquio
Tipo de trabalhador do Cloud Dataflow vCPU
US$/h
Memória
US$ GB/hr
Armazenamento — Disco permanente padrão
US$ GB/hr
Armazenamento — Disco permanente da SSD
US$ GB/hr
Dados reproduzidos aleatoriamente processados3
US$ GB4
Em lote 1
Por streaming 2
Se você fizer pagamentos em uma moeda que não seja o dólar americano, os preços listados na página SKUs do Cloud Platform serão aplicados na sua moeda.

1 Padrões do trabalhador em lote: uma vCPU, 3,75 GB de memória, 250 GB de disco permanente

2 Padrões do trabalhador por streaming: quatro vCPUs, 15 GB de memória, 420 GB de disco permanente

3 O Cloud Dataflow Shuffle baseado em serviço está disponível atualmente na versão Beta nos canais em lote apenas nas regiões us-central1 (Iowa) e europe-west1 (Bélgica). Ele estará disponível em outras regiões no futuro.

4 Consulte Preços do Cloud Dataflow para mais informações sobre os dados reproduzidos aleatoriamente processados.