Cloud Dataflow

Serviço de processamento de dados totalmente gerenciado, com suporte a streams e execuções em lote de pipelines

Teste grátis

Gerenciado e unificado

O Dataflow é um modelo de programação unificado e um serviço gerenciado para desenvolvimento e execução de diversos padrões de processamento de dados, inclusive ETL, computação em lotes e computação contínua. O Cloud Dataflow elimina as tarefas operacionais, como gerenciamento de recursos e otimização de desempenho.

Totalmente gerenciado

O serviço gerenciado administra com transparência o tempo de vida dos recursos, além de fornecer dinamicamente recursos para minimizar a latência e, ao mesmo tempo, garantir alta eficiência de utilização. Os recursos do Dataflow são alocados sob demanda, fornecendo capacidade quase ilimitada de recursos para que você possa lidar com o processamento de grande volume de dados.

Modelo unificado de programação

Os SDKs do Apache Beam fornecem modelos primitivos de programação, como sistemas de gestão de janelas e controles de correção que podem ser aplicados tanto a fontes de dados baseados em lotes quanto em streams. O modelo Apache Beam elimina o custo de mudança de modelo de programação entre o processamento em lote e o stream contínuo, permitindo aos desenvolvedores definirem requisitos computacionais independentemente da fonte de dados.

Integrado e de código aberto

Desenvolvido com serviços como o Google Compute Engine, o Dataflow é um ambiente de computação familiar que se integra perfeitamente com o Cloud Storage, o Cloud Pub/Sub, o Cloud Datastore, o Cloud Bigtable e o BigQuery. Os SDKs do Apache Beam, disponíveis em Java e Python, permitem aos desenvolvedores implementar extensões personalizadas e escolher mecanismos de execução alternativos.

Parcerias e integrações

Parceiros do Google Cloud Platform e desenvolvedores de terceiros desenvolveram integrações com o Dataflow para viabilizar tarefas rápidas e fáceis de processamento de dados. As integrações são realizadas com APIs abertas fornecidas pelo Dataflow.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

Recursos do Dataflow

Execução confiável para processamento de dados em larga escala

Gerenciamento de recursos
O Cloud Dataflow automatiza todo o gerenciamento de recursos de processamento. Rodar instâncias manualmente já é coisa do passado.
Sob demanda
Todos os recursos são fornecidos sob demanda, e o escalonamento é feito de acordo com as necessidades dos negócios. Não é mais preciso comprar instâncias reservas de computação.
Agendamento inteligente de atividades
Particionamento de atividades, automatizado e otimizado, capaz de rebalancear atividades paralisadas. Você não precisa procurar “teclas de atalho” ou pré-processar seus dados de entrada.
Escalonamento automático
O escalonamento automático horizontal dos recursos do trabalho atende a requisitos de excelência de capacidade e tem uma excelente relação custo/desempenho.
Modelo de programação unificado
A API do Dataflow permite expressar operações do tipo MapReduce, sistemas robustos de janela de dados e controles de correções específicos independentemente da fonte de dados.
Código aberto
Desenvolvedores que desejam expandir o modelo de programação do Dataflow podem receber e/ou enviar solicitações pull nos SDKs do Apache Beam. Os pipelines do Dataflow também podem ser gerados em tempos de execução alternativos, como Spark e Flink.
Monitoramento
Integrado ao Google Cloud Platform Console, o Cloud Dataflow fornece estatísticas, como capacidade de pipeline e tempo até a conversão, bem como inspeções consolidadas de registros do trabalhador, tudo isso quase em tempo real.
Integrado
É integrado ao Cloud Storage, ao Cloud Pub/Sub, ao Cloud Datastore, ao Cloud Bigtable e ao BigQuery para processamento de dados preciso. Além disso, ainda pode ser expandido para interagir com outras fontes e coletas, como o Apache Kafka e o HDFS.
Processamento confiável e consistente
O Cloud Dataflow oferece suporte consistente, correto e integrado para execuções tolerantes a falhas, independentemente do tamanho dos dados ou clusters, padrões de processamento ou complexidade do pipeline.

“O streaming do Google Cloud Dataflow atende perfeitamente aos requisitos da plataforma analítica de série temporal da Wix.com, principalmente em termos de escalabilidade, de processamento de dados de baixa latência e de computação tolerante a falhas. Uma ampla gama de operações de agrupamentos e transformação de coleta de dados permite a implementação de algoritmos de processamento de dados de stream complexo.”

- Gregory Bondar Ph.D. e diretor sênior de plataforma de serviços de dados da Wix.com

Resumo de preços do Dataflow

As tarefas do Cloud Dataflow são faturadas por minuto, com base no uso, de no mínimo um seus lotes ou trabalhadores streaming. Uma tarefa do Dataflow pode consumir outros recursos GCP, como Cloud Storage, Cloud Pubsub entre outros, sendo cada um deles faturado conforme a determinação de preços. Para mais informações sobre preços, consulte o guia de preços.

Iowa Oregon Carolina do Sul Bélgica Taiwan Tóquio
Tipo de trabalhador do Dataflow vCPU
US$/h
Memória
US$ GB/h
Armazenamento local – Disco permanente
US$ GB/h
Armazenamento local – com base em SSD
US$ GB/h
Lote 1
Streaming 2

1 Padrões do trabalhador em lote: 1 vCPU, 3,75 GB de memória e 250 GB de DP.

2 Padrões do trabalhador streaming: 4 vCPU, 15 GB de memória e 420 GB de DP.

Apache®, Apache Beam e o logotipo com a letra B laranja são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países.

Monitore seus recursos de onde você estiver

Instale o app do Google Cloud Console para ajudar você a gerenciar seus projetos.