Cloud Dataflow

Processamento simplificado de dados de stream e em lote, com a mesma confiabilidade e expressividade

Faça uma avaliação gratuita

Desenvolvimento mais rápido e gerenciamento mais simples

O Cloud Dataflow é um serviço totalmente gerenciado para transformar e aprimorar dados nos modos de stream (tempo real) e em lote (do histórico) com a mesma confiabilidade e expressividade. Você não precisa mais procurar soluções alternativas complexas. Além disso, com a abordagem sem servidor para o provisionamento e gerenciamento de recursos, você tem acesso a uma capacidade praticamente ilimitada para solucionar seus maiores desafios de processamento de dados, pagando apenas por aquilo que usa.

O Cloud Dataflow possibilita casos de uso transformacionais em vários setores, incluindo:

  • análise de sequência de cliques, pontos de venda e segmentação no varejo
  • detecção de fraude em serviços financeiros
  • experiência do usuário personalizada em jogos
  • análises da Internet das Coisas (IoT, na sigla em inglês) na indústria, em serviços de saúde e em logística
faster-development-easier-management

Acelere o desenvolvimento para lote e streaming

O Cloud Dataflow é compatível com um desenvolvimento rápido e simplificado de pipeline por meio de APIs SQL, Java e Python importantes no SDK do Apache Beam (em inglês), que fornecem um conjunto avançado de primitivas de análise de janelas e sessões, assim como um ecossistema (em inglês) de conectores de origem e de coletor. Além disso, com o modelo de desenvolvimento exclusivo e unificado do Beam, é possível reutilizar mais códigos nos pipelines de stream e em lote.

Para solicitar uma notificação da disponibilidade da próxima versão Alfa do Dataflow SQL, preencha este formulário. Entraremos em contato para informar a disponibilidade.

accelerate-development-with-no-compromises

Simplifique as operações e o gerenciamento

A abordagem sem servidor do GCP remove a sobrecarga operacional com o processamento automático de desempenho, escalonabilidade, disponibilidade, segurança e conformidade. Desta forma, os usuários podem se concentrar na programação em vez de precisar gerenciar clusters de servidores. A integração com o Stackdriver, a solução unificada de monitoramento e geração de registros do GCP, permite que você faça o monitoramento e resolva problemas nos seus pipelines enquanto eles estão em execução. A visualização avançada, a geração de registros e o avançado sistema de alertas ajudam você a identificar e a tomar medidas em relação a possíveis problemas.

simplify-operations-and-management

Desenvolva a base para o machine learning

Use o Cloud Dataflow como um elemento de integração prático para incluir a análise preditiva na detecção de fraudes, na personalização em tempo real e em casos de uso semelhantes. Para isso, adicione APIs e modelos do Cloud Machine Learning com base no TensorFlow aos seus pipelines de processamento de dados.

build-on-a-foundation-for-machine-learning

Use ferramentas que você conhece e prefere

O Cloud Dataflow se integra perfeitamente aos serviços do GCP para o processamento de eventos de streaming (Cloud Pub/Sub), armazenamento de dados (BigQuery), machine learning (Cloud Machine Learning) e muito mais. Com o SDK com base em Beam, os desenvolvedores também podem criar extensões personalizadas e até mesmo escolher mecanismos de execução alternativos, como o Apache Spark, por meio do Cloud Dataproc ou no local. Para os usuários do Apache Kafka, um conector do Cloud Dataflow facilita a integração com o GCP.

use-your-favorite-and-familiar-tools

Transformação de dados com o Cloud Dataflow

diagram-dataflow

RECURSOS DO CLOUD DATAFLOW

Gerenciamento de recursos automatizado
O Cloud Dataflow automatiza o provisionamento e o gerenciamento de recursos de processamento para reduzir a latência e maximizar a utilização. Você não precisa mais executar instâncias manualmente nem reservá-las.
Reequilíbrio dinâmico de trabalho
O particionamento automatizado e otimizado do trabalho reequilibra as atividades atrasadas de maneira dinâmica. Não é preciso procurar teclas de atalho nem fazer o pré-processamento dos seus dados de entrada.
Processamento único, confiável e consistente
Fornece suporte integrado para uma execução tolerante a falhas consistente e correta, independentemente do tamanho dos dados, do tamanho do cluster, do padrão de processamento e da complexidade do pipeline.
Escalonamento automático horizontal
Escalonamento automático horizontal do número de workers para alcançar os melhores resultados de capacidade com o melhor custo-benefício.
Modelo de programação unificado
O SDK do Apache Beam oferece operações avançadas, similares às do MapReduce e de igual potência, além de um sistema avançado de gerenciamento de janelas de dados e controle de correção detalhado tanto para os dados de stream quanto em lote.
Inovações voltadas para a comunidade
Os desenvolvedores que quiserem estender o modelo de programação do Cloud Dataflow podem fazer bifurcações e/ou contribuir para o Apache Beam.
Preços flexíveis de programação de recursos para processamento em lote
Para o processamento com flexibilidade no tempo de agendamento do job, como jobs noturnos, o agendamento flexível de recursos custa menos para o processamento em lote. Esses jobs flexíveis são colocados em uma fila com a garantia de que eles serão recuperados para execução dentro de seis horas.

Cloud Dataflow X Cloud Dataproc: qual devo usar?

Cloud Dataproc e Cloud Dataflow podem ser usados no processamento de dados, e há uma sobreposição no lote e nos recursos de streaming. Como você decide qual produto é mais indicado para o ambiente?
Dataproc X Dataflow

Cloud Dataproc

O Cloud Dataproc é bom para ambientes que dependem de componentes específicos do ecossistema de Big Data do Apache:

  • Ferramentas/pacotes
  • Pipelines
  • Conjuntos de habilidades de recursos atuais

Cloud Dataflow

O Cloud Dataflow normalmente é a opção preferida para ambientes totalmente novos:

  • Menos sobrecarga operacional
  • Abordagem unificada para desenvolvimento de pipelines em lote ou por streaming
  • Usa o Apache Beam
  • Compatível com portabilidade de pipeline no Cloud Dataflow, Apache Spark e Apache Flink como ambientes de execução

Cargas de trabalho recomendadas

CARGAS DE TRABALHO CLOUD DATAPROC CLOUD DATAFLOW
Processamento de stream (ETL)
Processamento em lote (ETL)
Processamento iterativo e notebooks
Machine learning com Spark ML
Pré-processamento para machine learning (com o Cloud ML Engine)

Parcerias e integrações

Desenvolvedores de fora e parceiros do Google Cloud Platform desenvolveram integrações com o Dataflow para viabilizar tarefas complexas de processamento de dados com rapidez e facilidade.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Ao executar nossos pipelines no Cloud Dataflow, podemos nos concentrar na programação sem termos que nos preocupar com a implantação e a manutenção de instâncias nas quais os nossos códigos são executados (uma marca registrada do GCP, de modo geral)."

– Jibran Saithi Arquiteto-chefe da Qubit

Preços acessíveis

Os jobs do Cloud Dataflow são cobrados em incrementos por segundo, com base no uso real de workers de stream ou em lote do Cloud Dataflow. Os jobs que usam outros recursos do GCP, como o Cloud Storage ou o Cloud Pub/Sub, são cobrados de acordo com os preços dos respectivos serviços utilizados.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virgínia do Norte (us-east4) Carolina do Sul (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Frankfurt (europe-west3) Londres (europe-west2) Países Baixos (europe-west4) Zurique (europe-west6) Mumbai (asia-south1) Singapura (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taiwan (asia-east1) Tóquio (asia-northeast1) Osaka (asia-northeast2)
Tipo de worker do Cloud Dataflow vCPU
US$/h
Memória
US$ GB/h
Armazenamento — Disco permanente padrão
US$ GB/h
Armazenamento — Disco permanente SSD
US$ GB/h
Data de processamento4,5
US$ GB6
Em lote 1
FlexRS 2
Streaming 3
Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

1 Padrões do worker em lote: 1 vCPU, memória de 3,75 GB, disco permanente de 250 GB

2 Padrões do worker no FlexRS: 2 vCPUs, memória de 7,50 GB, disco permanente de 25 GB por worker, com um mínimo de dois workers

3 Padrões do worker no streaming: 4 vCPUs, memória de 15 GB, disco permanente de 420 GB

4 No momento, o Cloud Dataflow Shuffle está disponível para pipelines de lote nas seguintes regiões:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Holanda)
  • asia-northeast1 (Tóquio)

Ele estará disponível em outras regiões no futuro.

5 O Cloud Dataflow Streaming Engine usa a unidade de preços de dados de streaming processados. O Streaming Engine está disponível nas seguintes regiões:

  • us-central1 (Iowa)
  • europe-west1 (Bélgica)
  • europe-west4 (Holanda)
  • asia-northeast1 (Tóquio)
Ele estará disponível em outras regiões no futuro.

6 Consulte a página Preços do Cloud Dataflow para mais informações sobre dados processados.

Os produtos de IA do Cloud estão em conformidade com as políticas de SLA listadas neste documento. Eles podem oferecer garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.

Enviar comentários sobre…