Cloud Dataflow

Elaborazione semplificata dei dati in modalità streaming e batch, con affidabilità ed espressività garantite

Fai una prova gratuita

Sviluppo più veloce, gestione più facile

Cloud Dataflow è un servizio completamente gestito per trasformare e arricchire i dati in modalità streaming (in tempo reale) e batch (cronologica) con affidabilità ed espressività garantite. Non avrai più bisogno di soluzioni alternative complesse né compromessi. Grazie a un approccio serverless per il provisioning e la gestione delle risorse, avrai una capacità praticamente illimitata per risolvere i problemi più gravi di elaborazione dei dati, pagando però solo ciò che utilizzi.

I casi in cui può essere impiegato Cloud Dataflow sono moltissimi e riguardano tutti i settori commerciali, tra cui:

  • check Analisi di flusso di clic, punti vendita e segmentazione nella vendita al dettaglio
  • check Rilevamento di frodi nei servizi finanziari
  • check Esperienza utente personalizzata nei videogiochi
  • check Analisi IoT nel settore medico, manifatturiero e della logistica
faster-development-easier-management

Accelerare lo sviluppo per batch e streaming

Cloud Dataflow supporta uno sviluppo rapido e semplificato delle pipeline mediante API Java e Python espressive nell'SDK Apache Beam, che offre un set all'avanguardia di primitive per windowing e analisi delle sessioni, nonché un ecosistema di connettori di origine e sink. Inoltre, l'esclusivo modello di sviluppo unificato di Beam consente di riutilizzare una maggiore quantità di codice nelle pipeline in modalità sia streaming sia batch.

accelerate-development-with-no-compromises

Semplificare operazioni e gestione

L'approccio serverless di GCP elimina i problemi di overhead operativo in quanto prestazioni, scalabilità, disponibilità, sicurezza e conformità vengono gestite automaticamente. In questo modo puoi concentrarti sulla programmazione invece che sulla gestione dei cluster di server. Grazie all'integrazione con Stackdriver, la soluzione unificata per log e monitoraggio di GCP, puoi tenere sotto controllo le pipeline in esecuzione e risolvere eventuali problemi. La visualizzazione, le funzionalità di log e quelle avanzate di avviso ti permettono di individuare e risolvere rapidamente i possibili inconvenienti.

simplify-operations-and-management

Basato su un sistema di machine learning

Cloud Dataflow è un comodo punto di integrazione per applicare l'analisi predittiva a rilevamento di frodi, personalizzazione in tempo reale e casi d'uso simili, aggiungendo API e modelli di Cloud Machine Learning basati su TensorFlow alle pipeline di elaborazione dei dati.

build-on-a-foundation-for-machine-learning

Utilizza gli strumenti che più preferisci e conosci

Cloud Dataflow si integra perfettamente con i servizi GCP per l'inserimento di eventi streaming (Cloud Pub/Sub), data warehousing (BigQuery), machine learning (Cloud Machine Learning) e altro ancora. Inoltre, l'SDK basato su Beam consente agli sviluppatori di creare estensioni personalizzate e perfino scegliere motori di esecuzione alternativi, ad esempio Apache Spark mediante Cloud Dataproc o in loco. Per gli utenti di Apache Kafka è disponibile un connettore Cloud Dataflow che semplifica l'integrazione con GCP.

use-your-favorite-and-familiar-tools

Trasformare i dati con Cloud Dataflow

diagram-dataflow

CARATTERISTICHE DI CLOUD DATAFLOW

Gestione automatica delle risorse
Cloud Dataflow automatizza il provisioning e la gestione delle risorse di elaborazione in modo da ridurre i tempi di latenza e ottimizzare l'utilizzo. Non è più necessario attivare le istanze manualmente o prenotarle.
Ribilanciamento dinamico del lavoro
Il partizionamento automatico e ottimizzato consente di ridistribuire dinamicamente il lavoro in sospeso. Non è necessario andare alla ricerca di tasti di scelta rapida oppure pre-elaborare i dati di input.
Elaborazione "exactly-once" affidabile e uniforme
Cloud Dataflow fornisce un supporto integrato per l'esecuzione a tolleranza di errore coerente e corretta, indipendentemente dalla dimensione dei dati e del cluster, dal pattern di elaborazione o dalla complessità della pipeline.
Scalabilità automatica orizzontale
La scalabilità automatica orizzontale delle risorse worker per ottenere requisiti di velocità effettiva ottimale consente di avere un migliore rapporto prezzo-prestazioni complessivo.
Modello di programmazione unificato
L'SDK Apache Beam offre lo stesso livello di qualità delle operazioni MapReduce, funzioni avanzate di windowing dei dati e controllo granulare della precisione per dati in modalità sia streaming sia batch.
Innovazione promossa dalla community
Gli sviluppatori che intendono estendere il modello di programmazione di Cloud Dataflow possono effettuare il fork e/o contribuire ad Apache Beam.

Partnership e integrazioni

Partner e sviluppatori di terze parti di Google Cloud Platform hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Grazie all'esecuzione delle nostre pipeline su Cloud Dataflow, possiamo concentrarci sulla programmazione senza doverci preoccupare di implementare o gestire le istanze che eseguono il nostro codice (una delle caratteristiche complessive di GCP)."

- Jibran Saithi Lead Architect, Qubit

Prezzi orientati agli utenti

I job di Cloud Dataflow vengono fatturati al minuto, in base all'utilizzo effettivo dei worker in modalità batch o streaming di Cloud Dataflow. I job che utilizzano altre risorse GCP, ad esempio Cloud Storage o Cloud Pub/Sub, vengono fatturati in base al prezzo del servizio corrispondente.

Iowa Oregon Virginia del Nord Carolina del Sud San Paolo Belgio Londra Francoforte Singapore Sydney Taiwan Tokyo
Tipo di ruolo di lavoro di Dataflow vCPU
$/h
Memoria
$ GB/h
Archiviazione locale - Disco permanente
$ GB/h
Archiviazione locale - Basata su SSD
$ GB/h
Dataflow Shuffle 3
$ GB/h
Batch 1
Streaming 2
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella propria valuta negli SKU di Cloud Platform.

1 Valori predefiniti per worker batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente.

2 Valori predefiniti per worker in modalità streaming: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente.

3 Dataflow Shuffle basato su servizi al momento è disponibile solo in versione beta per pipeline batch nell'area geografica us-central1 (Iowa). In futuro verrà implementato in altre aree geografiche.