Cloud Dataflow

Elaborazione semplificata dei dati in modalità flusso e batch, con affidabilità ed efficacia garantite

Fai una prova gratuita

Sviluppo più veloce, gestione più facile

Cloud Dataflow è un servizio completamente gestito per trasformare e arricchire i dati in modalità flusso (in tempo reale) e batch (cronologica) con affidabilità ed efficacia garantite. Niente più soluzioni alternative complesse né compromessi. Grazie a un approccio serverless al provisioning e alla gestione delle risorse, potrai usufruire di una capacità praticamente illimitata che ti consentirà di risolvere le sfide più impegnative in termini di elaborazione dei dati, sostenendo solo i costi previsti per ciò che utilizzi.

Cloud Dataflow può essere impiegato in numerosi casi d'uso in diversi settori, abilitando un'ampia gamma di iniziative di trasformazione aziendale:

  • check Analisi di flusso di clic, punti vendita e segmentazione nella vendita al dettaglio
  • check Rilevamento di frodi nei servizi finanziari
  • check Esperienza utente personalizzata nei videogiochi
  • check Analisi IoT nei settori della sanità, della manifattura e della logistica
faster-development-easier-management

Accelera lo sviluppo per l'elaborazione di flussi e batch

Cloud Dataflow supporta uno sviluppo rapido e semplificato delle pipeline mediante API Java e Python espressive nell'SDK Apache Beam, che offre un set all'avanguardia di primitive per windowing e analisi delle sessioni, nonché un ecosistema di connettori di origine e sink. Inoltre, l'esclusivo modello di sviluppo unificato di Beam consente di riutilizzare una maggiore quantità di codice nelle pipeline in modalità flusso e batch.

accelerate-development-with-no-compromises

Semplifica operazioni e gestione

L'approccio serverless di GCP elimina i problemi di overhead operativo in quanto prestazioni, scalabilità, disponibilità, sicurezza e conformità vengono gestite automaticamente. In questo modo puoi concentrarti sulla programmazione invece che sulla gestione dei cluster di server. Grazie all'integrazione con Stackdriver, la soluzione di registrazione e monitoraggio unificata di GCP, puoi tenere sotto controllo le pipeline in esecuzione e risolvere eventuali problemi. Le funzionalità avanzate di visualizzazione, registrazione e avviso ti permettono di individuare e rispondere rapidamente a potenziali problematiche.

simplify-operations-and-management

Affidati a un solido sistema di machine learning

Cloud Dataflow è un comodo punto di integrazione per applicare l'analisi predittiva a numerosi casi d'uso, tra cui rilevamento di frodi e personalizzazione in tempo reale, aggiungendo API e modelli di Cloud Machine Learning basati su TensorFlow alle pipeline di elaborazione dei dati.

build-on-a-foundation-for-machine-learning

Utilizza gli strumenti che preferisci e conosci

Cloud Dataflow si integra perfettamente con i servizi GCP per l'importazione di flussi di eventi (Cloud Pub/Sub), il data warehousing (BigQuery), il machine learning (Cloud Machine Learning), e altro ancora. Inoltre, l'SDK basato su Beam consente agli sviluppatori di creare estensioni personalizzate e perfino scegliere motori di esecuzione alternativi, ad esempio Apache Spark mediante Cloud Dataproc o in loco. Per gli utenti di Apache Kafka è disponibile un connettore Cloud Dataflow che semplifica l'integrazione con GCP.

use-your-favorite-and-familiar-tools

Trasformazione dei dati con Cloud Dataflow

diagram-dataflow

FUNZIONALITÀ DI CLOUD DATAFLOW

Gestione automatica delle risorse
Cloud Dataflow automatizza il provisioning e la gestione delle risorse di elaborazione per ridurre al minimo i tempi di latenza e ottimizzare l'utilizzo. Non è più necessario attivare le istanze manualmente o prenotarle.
Ribilanciamento dinamico del lavoro
Il partizionamento automatico e ottimizzato consente di ridistribuire dinamicamente il lavoro in sospeso. Non è necessario andare alla ricerca di tasti di scelta rapida oppure pre-elaborare i dati di input.
Elaborazione "exactly-once" affidabile e coerente
Cloud Dataflow fornisce un supporto integrato per l'esecuzione a tolleranza di errore coerente e corretta, indipendentemente dalla dimensione dei dati e del cluster, dal pattern di elaborazione o dalla complessità della pipeline.
Scalabilità automatica orizzontale
La scalabilità automatica orizzontale delle risorse worker per ottimizzare la velocità effettiva si traduce in un migliore rapporto prezzo-prestazioni.
Modello di programmazione unificato
L'SDK Apache Beam offre lo stesso livello di qualità delle operazioni MapReduce, funzioni avanzate di windowing dei dati e controllo granulare della precisione per i dati in modalità flusso e batch.
Innovazione promossa dalla community
Gli sviluppatori che intendono estendere il modello di programmazione di Cloud Dataflow possono effettuare il fork e/o contribuire ad Apache Beam.

Confronto tra Cloud Dataflow e Cloud Dataproc: quale utilizzare?

Cloud Dataproc e Cloud Dataflow possono essere entrambi utilizzati per l'elaborazione dei dati e le funzionalità di elaborazione in flussi e in batch dei due prodotti sono sovrapponibili. Come scegliere la soluzione ideale per il tuo ambiente?
Confronto tra Dataproc e Dataflow

Cloud Dataproc

Cloud Dataproc è ideale per gli ambienti che dipendono da componenti specifici dell'ecosistema di big data di Apache:

  • check Strumenti/pacchetti
  • check Pipeline
  • check Competenze delle risorse esistenti

Cloud Dataflow

Cloud Dataflow è in genere la soluzione più adatta per gli ambienti greenfield:

  • check Costi operativi inferiori
  • check Approccio unificato allo sviluppo di pipeline in modalità flusso o batch
  • check Utilizza Apache Beam
  • check Supporta la portabilità delle pipeline tra Cloud Dataflow, Apache Spark e Apache Flink come runtime

Carichi di lavoro consigliati

CARICHI DI LAVORO CLOUD DATAPROC CLOUD DATAFLOW
Elaborazione dei flussi (ETL) check
Elaborazione batch (ETL) check check
Elaborazione iterativa e notebook check
Machine learning con Spark ML check
Pre-elaborazione per machine learning check (con Cloud ML Engine)

Partnership e integrazioni

Partner e sviluppatori di terze parti di Google Cloud Platform hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Grazie all'esecuzione delle nostre pipeline su Cloud Dataflow, possiamo concentrarci sulla programmazione senza doverci preoccupare di distribuire o gestire le istanze che eseguono il nostro codice (una delle caratteristiche complessive di GCP)."

- Jibran Saithi Lead Architect, Qubit

Prezzi orientati agli utenti

I job di Cloud Dataflow vengono fatturati in incrementi al secondo, in base all'utilizzo effettivo dei worker in modalità batch o flusso di Cloud Dataflow. I job che utilizzano altre risorse GCP, ad esempio Cloud Storage o Cloud Pub/Sub, vengono fatturati in base al prezzo del servizio corrispondente.

Iowa Oregon Virginia del Nord Carolina del Sud Montreal San Paolo Belgio Londra Paesi Bassi Francoforte Mumbai Singapore Sydney Taiwan Tokyo
Tipo di worker Cloud Dataflow vCPU
$/h
Memoria
$ GB/h
Archiviazione - Disco permanente standard
$ GB/h
Archiviazione - Disco permanente SSD
$ GB/h
Dati elaborati tramite Shuffle3
$ GB4
Batch 1
Flusso 2
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1 Valori predefiniti per un worker batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2 Valori predefiniti per un worker batch: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente

3 Cloud Dataflow Shuffle basato su servizi è attualmente disponibile in versione beta per pipeline batch solo nelle aree geografiche us-central1 (Iowa) ed europe-west1 (Belgio). In futuro verrà implementato in altre aree geografiche.

4 Vedi i Prezzi di Cloud Dataflow per ulteriori informazioni sui dati elaborati tramite Shuffle.