Cloud Dataflow

Elaborazione semplificata dei dati in modalità flusso e batch, con affidabilità ed espressività garantite

Fai una prova gratuita

Sviluppo più veloce, gestione più facile

Cloud Dataflow è un servizio completamente gestito per trasformare e arricchire i dati in modalità flusso (in tempo reale) e batch (cronologica) con affidabilità ed espressività garantite. Niente più soluzioni alternative complesse né compromessi. Grazie a un approccio serverless al provisioning e alla gestione delle risorse, potrai usufruire di una capacità praticamente illimitata che ti consentirà di risolvere le sfide più impegnative in termini di elaborazione dei dati, sostenendo solo i costi previsti per ciò che utilizzi.

Cloud Dataflow può essere impiegato in numerosi casi d'uso in diversi settori, abilitando un'ampia gamma di iniziative di trasformazione aziendale, tra cui:

  • Analisi di clickstream, punti vendita e segmentazione nella vendita al dettaglio
  • Rilevamento di frodi nei servizi finanziari
  • Esperienza utente personalizzata nei videogiochi
  • Analisi IoT nei settori della sanità, della manifattura e della logistica
faster-development-easier-management

Accelera lo sviluppo per l'elaborazione di flussi e batch

Cloud Dataflow supporta uno sviluppo rapido delle pipeline mediante API Java e Python espressive nell'Apache Beam SDK, che offre un set all'avanguardia di primitive per windowing e analisi delle sessioni, nonché un ecosistema di connettori di origine e sink. Inoltre, l'esclusivo modello di sviluppo unificato di Beam consente di riutilizzare una maggiore quantità di codice nelle pipeline in modalità flusso e batch.

accelerate-development-with-no-compromises

Semplifica operazioni e gestione

L'approccio serverless di GCP elimina i problemi di overhead operativo in quanto prestazioni, scalabilità, disponibilità, sicurezza e conformità vengono gestite automaticamente. In questo modo puoi concentrarti sulla programmazione invece che sulla gestione dei cluster di server. Grazie all'integrazione con Stackdriver, la soluzione di logging e monitoraggio unificata di GCP, puoi tenere sotto controllo le pipeline in esecuzione e risolvere eventuali problemi. Le funzionalità avanzate di visualizzazione, logging e avviso ti permettono di individuare e rispondere rapidamente a potenziali problematiche.

simplify-operations-and-management

Affidati a un solido sistema di machine learning

Cloud Dataflow è un comodo punto di integrazione per applicare l'analisi predittiva a numerosi casi d'uso, tra cui rilevamento di frodi e personalizzazione in tempo reale, aggiungendo API e modelli di Cloud Machine Learning basati su TensorFlow alle pipeline di elaborazione dei dati.

build-on-a-foundation-for-machine-learning

Utilizza gli strumenti che preferisci e conosci

Cloud Dataflow si integra perfettamente con i servizi GCP per l'importazione di flussi di eventi (Cloud Pub/Sub), il data warehousing (BigQuery), il machine learning (Cloud Machine Learning) e altro ancora. Inoltre, l'SDK basato su Beam consente agli sviluppatori di creare estensioni personalizzate e perfino scegliere motori di esecuzione alternativi, ad esempio Apache Spark mediante Cloud Dataproc o on-premise. Per gli utenti di Apache Kafka è disponibile un connettore Cloud Dataflow che semplifica l'integrazione con GCP.

use-your-favorite-and-familiar-tools

Trasformazione dei dati con Cloud Dataflow

diagram-dataflow

FUNZIONALITÀ DI CLOUD DATAFLOW

Gestione automatica delle risorse
Cloud Dataflow automatizza il provisioning e la gestione delle risorse di elaborazione per ridurre al minimo i tempi di latenza e ottimizzare l'utilizzo. Non è più necessario attivare le istanze manualmente o prenotarle.
Ribilanciamento dinamico del lavoro
Il partizionamento automatico e ottimizzato consente di ridistribuire dinamicamente il lavoro in sospeso. Non è necessario andare alla ricerca di tasti di scelta rapida oppure pre-elaborare i dati di input.
Elaborazione "exactly-once" affidabile e coerente
Cloud Dataflow fornisce supporto integrato per l'esecuzione a tolleranza di errore coerente e corretta, indipendentemente dalla dimensione dei dati e del cluster, dal pattern di elaborazione o dalla complessità della pipeline.
Scalabilità automatica orizzontale
La scalabilità automatica orizzontale delle risorse worker per ottimizzare la velocità effettiva si traduce in un migliore rapporto prezzo-prestazioni.
Modello di programmazione unificato
L'Apache Beam SDK offre lo stesso livello di qualità delle operazioni MapReduce, funzioni avanzate di windowing dei dati e controllo granulare della correttezza per i dati in modalità flusso e batch.
Innovazione promossa dalla community
Gli sviluppatori che intendono estendere il modello di programmazione di Cloud Dataflow possono effettuare il fork e/o contribuire ad Apache Beam.

Cloud Dataflow e Cloud Dataproc: quale utilizzare?

Cloud Dataproc e Cloud Dataflow possono essere entrambi utilizzati per l'elaborazione dei dati e le funzionalità di elaborazione in modalità flusso e batch dei due prodotti sono sovrapponibili. Come scegliere la soluzione ideale per il tuo ambiente?
Dataproc e Dataflow

Cloud Dataproc

Cloud Dataproc è ideale per gli ambienti che dipendono da componenti specifici dell'ecosistema di big data di Apache:

  • Strumenti/pacchetti
  • Pipeline
  • Competenze delle risorse esistenti

Cloud Dataflow

Cloud Dataflow è in genere la soluzione più adatta per gli ambienti greenfield:

  • Costi operativi inferiori
  • Approccio unificato allo sviluppo di pipeline in modalità flusso o batch
  • Utilizza Apache Beam
  • Supporta la portabilità delle pipeline tra Cloud Dataflow, Apache Spark e Apache Flink come runtime

Carichi di lavoro consigliati

CARICHI DI LAVORO CLOUD DATAPROC CLOUD DATAFLOW
Elaborazione dei flussi (ETL)
Elaborazione batch (ETL)
Elaborazione iterativa e notebook
Machine learning con Spark ML
Pre-elaborazione per machine learning (con Cloud ML Engine)

Partnership e integrazioni

Partner e sviluppatori di terze parti di Google Cloud Platform hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Grazie all'esecuzione delle nostre pipeline su Cloud Dataflow, possiamo concentrarci sulla programmazione senza doverci preoccupare di provvedere al deployment o alla gestione delle istanze che eseguono il nostro codice (un tratto distintivo di GCP)."

- Jibran Saithi Lead Architect, Qubit

Prezzi orientati agli utenti

I job di Cloud Dataflow vengono fatturati in incrementi al secondo, in base all'utilizzo effettivo dei worker in modalità batch o flusso di Cloud Dataflow. I job che utilizzano altre risorse GCP, ad esempio Cloud Storage o Cloud Pub/Sub, vengono fatturati in base al prezzo del servizio corrispondente.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virginia del Nord (us-east4) Carolina del Sud (us-east1) Montréal (northamerica-northeast1) San Paolo (southamerica-east1) Belgio (europe-west1) Finlandia (europe-north1) Francoforte (europe-west3) Londra (europe-west2) Paesi Bassi (europe-west4) Mumbai (asia-south1) Singapore (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taiwan (asia-east1) Tokyo (asia-northeast1)
Tipo di worker Cloud Dataflow vCPU
$/h
Memoria
$ GB/h
Archiviazione - Disco permanente standard
$ GB/h
Archiviazione - Disco permanente SSD
$ GB/h
Dati elaborati3,4
$ GB5
Batch 1
Flusso 2
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1 Valori predefiniti per un worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2 Valori predefiniti per un worker in modalità flusso: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente

3 Cloud Dataflow Shuffle è attualmente disponibile per pipeline in modalità batch solo nelle aree geografiche us-central1 (Iowa) ed europe-west1 (Belgio). In futuro verrà implementato in altre aree geografiche.

4 Cloud Dataflow Streaming Engine utilizza l'unità di prezzo relativa ai flussi di dati elaborati. Streaming Engine è attualmente disponibile in versione beta per pipeline in modalità flusso solo nelle aree geografiche us-central1 (Iowa) ed europe-west1 (Belgio). In futuro verrà implementato in altre aree geografiche.

5 Consulta i Prezzi di Cloud Dataflow per ulteriori informazioni sui dati elaborati.

Invia feedback per...