Cloud Dataflow

Processamento simplificado de dados de stream e em lote, com a mesma confiabilidade e expressividade

Avaliação gratuita

Desenvolvimento mais rápido e gerenciamento mais fácil

O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aprimorar dados nos modos de stream (tempo real) e em lote (do histórico) com a mesma confiabilidade e expressividade. Você não precisa mais encontrar soluções alternativas complexas. E, com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, ao mesmo tempo em que paga apenas por aquilo que usa.

O Cloud Dataflow revela casos de uso transformacionais em vários setores, incluindo:

  • check análise de sequência de cliques, pontos de venda e segmentação no varejo
  • check detecção de fraude em serviços financeiros
  • check experiência do usuário personalizada em jogos
  • check análises da IoT na indústria, em serviços de saúde e em logística
faster-development-easier-management

Desenvolvimento acelerado para dados em lote e de stream

O Cloud Dataflow possibilita o desenvolvimento rápido e simplificado de canais por meio das APIs expressivas de Java e Python no SDK do Apache Beam. Ele fornece um conjunto avançado de primitivos de análise de sessão e janelas, assim como um ecossistema de conectores de coletor e origem. Além disso, com o modelo de desenvolvimento exclusivo e unificado do Beam, é possível reutilizar mais códigos nos canais de stream e em lote.

accelerate-development-with-no-compromises

Simplifique operações e gerenciamento

A abordagem sem servidor do GCP remove a sobrecarga operacional com o processamento automático de desempenho, escalabilidade, disponibilidade, segurança e conformidade. Desta forma, os usuários podem se concentrar na programação em vez de precisar gerenciar clusters de servidores. A integração com o Stackdriver, a solução de monitoramento e geração de registros unificada do GCP, permite que você faça o monitoramento e resolva problemas nos seus canais enquanto eles estão em execução. A visualização avançada, a geração de registros e o sistema de alertas avançado ajudam você a identificar e a tomar medidas em relação a possíveis problemas.

simplify-operations-and-management

Desenvolva a base para o aprendizado de máquina

Use o Cloud Dataflow como um elemento de integração prático para incluir a análise preditiva na detecção de fraude, na personalização em tempo real e em casos de uso semelhantes. Para isso, adicione modelos do Cloud Machine Learning com base no TensorFlow e APIs nos seus canais de processamento de dados.

build-on-a-foundation-for-machine-learning

Use ferramentas que você conhece e prefere

O Cloud Dataflow se integra perfeitamente aos serviços do GCP para a ingestão de eventos de streaming (Cloud Pub/Sub), de armazenamento de dados (BigQuery), de aprendizado de máquina (Cloud Machine Learning) e muito mais. Com o SDK com base em Beam, os desenvolvedores também podem criar extensões personalizadas e até mesmo escolher mecanismos de execução alternativos, como o Apache Spark, por meio do Cloud Dataproc ou no local. Para os usuários do Apache Kafka, um conector do Cloud Dataflow facilita a integração com o GCP.

use-your-favorite-and-familiar-tools

Transformação de dados com o Cloud Dataflow

diagram-dataflow

RECURSOS DO CLOUD DATAFLOW

Gerenciamento de recursos automatizado
O Cloud Dataflow automatiza o provisionamento e o gerenciamento de recursos em processamento para reduzir a latência e maximizar a utilização. Você não precisa mais executar instâncias manualmente ou reservá-las.
Reequilíbrio dinâmico de trabalho
O particionamento automatizado e otimizado do trabalho reequilibra as atividades atrasadas de maneira dinâmica. Não é preciso procurar “teclas de atalho” ou fazer o pré-processamento dos seus dados de entrada.
Processamento único, confiável e consistente
Fornece suporte integrado para a execução tolerante a falhas consistente e correta, independentemente do tamanho dos dados, do tamanho do cluster, do padrão de processamento e da complexidade do canal.
Autoescalonamento horizontal
Autoescalonamento horizontal do número de trabalhadores para alcançar os melhores resultados de capacidade com o melhor custo-benefício.
Modelo de programação unificado
O SDK do Apache Beam oferece operações avançadas, similares ao MapReduce e de igual potência, além de sistema de gestão de janelas avançado e controle de correção detalhado tanto para os dados de stream quanto em lote.
Inovações voltadas para a comunidade
Os desenvolvedores que quiserem estender o modelo de programação do Cloud Dataflow podem fazer bifurcações e/ou contribuir para o Apache Beam.

Parcerias e integrações

Desenvolvedores de terceiros e parceiros do Google Cloud Platform desenvolveram integrações com o Dataflow para viabilizar tarefas de processamento de dados com rapidez e facilidade.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

“Ao executar nossos canais no Cloud Dataflow, podemos nos concentrar na programação sem termos que nos preocupar com a implantação e a manutenção de instâncias que executam nossos códigos (uma marca registrada do GCP, de modo geral).”

- Jibran Saithi Arquiteto-chefe, Qubit

Preços que cabem no bolso usuário

Os jobs do Cloud Dataflow são cobrados por minuto, com base no uso real dos trabalhadores de stream ou em lote da plataforma. Os jobs que usam recursos adicionais do GCP, como o Cloud Storage ou o Cloud Pub/Sub, são faturados de acordo com os respectivos preços dos serviços utilizados.

Iowa Óregon Virgínia do Norte Carolina do Sul São Paulo Bélgica Londres Frankfurt Mumbai Cingapura Sydney Taiwan Tóquio
Tipo de worker do Dataflow vCPU
US$/h
Memória
US$ GB/h
Armazenamento local – Disco permanente
US$ GB/h
Armazenamento local – com base em SSD
US$ GB/h
Dataflow Shuffle 3
US$ GB/h
Lote 1
Streaming 2
Se você fizer pagamentos em uma moeda que não seja o USD, os preços listados na página SKUs do Cloud Platform serão aplicados na sua moeda.

1 Padrões do worker em lote: 1 vCPU, 3,75 GB de memória e 250 GB de DP (disco permanente).

2 Padrões do worker em streaming: 4 vCPU, 15 GB de memória e 420 GB de DP (disco permanente).

3 Atualmente, o Dataflow Shuffle com base em serviço está disponível na versão Beta para canais em lote somente na região us-central1 (Iowa). Ele estará disponível em outras regiões no futuro.