Cloud Dataflow

Elaborazione semplificata dei dati in modalità flusso e batch, con affidabilità ed espressività garantite

Fai una prova gratuita

Sviluppo più veloce, gestione più facile

Cloud Dataflow è un servizio completamente gestito per trasformare e arricchire i dati in modalità flusso (in tempo reale) e batch (cronologica) con affidabilità ed espressività garantite. Niente più soluzioni alternative complesse né compromessi. Grazie a un approccio serverless al provisioning e alla gestione delle risorse, potrai usufruire di una capacità praticamente illimitata che ti consentirà di risolvere le sfide più impegnative in termini di elaborazione dei dati, sostenendo solo i costi previsti per ciò che utilizzi.

Cloud Dataflow può essere impiegato in numerosi casi d'uso in diversi settori, abilitando un'ampia gamma di iniziative di trasformazione aziendale, tra cui:

  • Analisi di clickstream, punti vendita e segmentazione nella vendita al dettaglio
  • Rilevamento di frodi nei servizi finanziari
  • Esperienza utente personalizzata nei videogiochi
  • Analisi IoT nei settori della sanità, della manifattura e della logistica
faster-development-easier-management

Accelera lo sviluppo per modalità flusso e batch

Cloud Dataflow supporta uno sviluppo rapido e semplificato delle pipeline mediante API SQL, Java e Python espressive nell'SDK Apache Beam, che fornisce un ricco set di primitive di windowing e analisi delle sessioni nonché un ecosistema di connettori di origine e sink. Inoltre, l'esclusivo modello di sviluppo unificato di Beam consente di riutilizzare una maggiore quantità di codice nelle pipeline in modalità flusso e batch.

Per richiedere una notifica dell'imminente disponibilità alpha di Dataflow SQL, compila questo modulo. Ci metteremo in contatto con te quando è disponibile per l'utilizzo da parte tua.

accelerate-development-with-no-compromises

Semplifica operazioni e gestione

L'approccio serverless di GCP elimina i problemi di overhead operativo in quanto prestazioni, scalabilità, disponibilità, sicurezza e conformità vengono gestite automaticamente. In questo modo puoi concentrarti sulla programmazione invece che sulla gestione dei cluster di server. Grazie all'integrazione con Stackdriver, la soluzione di logging e monitoraggio unificata di GCP, puoi tenere sotto controllo le pipeline in esecuzione e risolvere eventuali problemi. Le funzionalità avanzate di visualizzazione, logging e avviso ti permettono di individuare e rispondere rapidamente a potenziali problematiche.

simplify-operations-and-management

Affidati a un solido sistema di machine learning

Cloud Dataflow è un comodo punto di integrazione per applicare l'analisi predittiva a numerosi casi d'uso, tra cui rilevamento di frodi e personalizzazione in tempo reale, aggiungendo API e modelli di Cloud Machine Learning basati su TensorFlow alle pipeline di elaborazione dei dati.

build-on-a-foundation-for-machine-learning

Utilizza gli strumenti che preferisci e conosci

Cloud Dataflow si integra perfettamente con i servizi GCP per l'importazione di flussi di eventi (Cloud Pub/Sub), data warehousing (BigQuery), machine learning (Cloud Machine Learning) e molto altro ancora. Inoltre, l'SDK basato su Beam consente agli sviluppatori di creare estensioni personalizzate e perfino scegliere motori di esecuzione alternativi, ad esempio Apache Spark mediante Cloud Dataproc o on-premise. Per gli utenti di Apache Kafka è disponibile un connettore Cloud Dataflow che semplifica l'integrazione con GCP.

use-your-favorite-and-familiar-tools

Trasformazione dei dati con Cloud Dataflow

diagram-dataflow

FUNZIONALITÀ DI CLOUD DATAFLOW

Gestione automatica delle risorse
Cloud Dataflow automatizza il provisioning e la gestione delle risorse di elaborazione per ridurre al minimo i tempi di latenza e ottimizzare l'utilizzo. Non è più necessario attivare le istanze manualmente o prenotarle.
Ribilanciamento dinamico del lavoro
Il partizionamento automatico e ottimizzato consente di ridistribuire dinamicamente il lavoro in sospeso. Non è necessario andare alla ricerca di tasti di scelta rapida oppure pre-elaborare i dati di input.
Elaborazione "exactly-once" affidabile e coerente
Cloud Dataflow fornisce supporto integrato per l'esecuzione a tolleranza di errore coerente e corretta, indipendentemente dalla dimensione dei dati e del cluster, dal pattern di elaborazione o dalla complessità della pipeline.
Scalabilità automatica orizzontale
La scalabilità automatica orizzontale delle risorse worker per ottimizzare la velocità effettiva si traduce in un migliore rapporto prezzo-prestazioni.
Modello di programmazione unificato
L'SDK Apache Beam offre lo stesso livello di qualità delle operazioni MapReduce, funzioni avanzate di windowing dei dati e controllo granulare della correttezza per i dati in modalità flusso e batch.
Innovazione promossa dalla community
Gli sviluppatori che intendono estendere il modello di programmazione di Cloud Dataflow possono effettuare il fork e/o contribuire ad Apache Beam.
Prezzi flessibili di pianificazione delle risorse per l'elaborazione batch
Per elaborare flessibilmente nei tempi di pianificazione dei job, come lavori notturni, la pianificazione flessibile delle risorse offre prezzi inferiori per l'elaborazione batch. Questi job flessibili sono inseriti in una coda con la garanzia che saranno recuperati per l'esecuzione entro una lasso di tempo di sei ore.

Cloud Dataflow e Cloud Dataproc: quale utilizzare?

Cloud Dataproc e Cloud Dataflow possono essere entrambi utilizzati per l'elaborazione dei dati e le funzionalità di elaborazione in modalità flusso e batch dei due prodotti sono sovrapponibili. Come scegliere la soluzione ideale per il tuo ambiente?
Dataproc e Dataflow

Cloud Dataproc

Cloud Dataproc è ideale per gli ambienti che dipendono da componenti specifici dell'ecosistema di big data di Apache:

  • Strumenti/pacchetti
  • Pipeline
  • Competenze delle risorse esistenti

Cloud Dataflow

Cloud Dataflow è in genere la soluzione più adatta per gli ambienti greenfield:

  • Costi operativi inferiori
  • Approccio unificato allo sviluppo di pipeline in modalità flusso o batch
  • Utilizza Apache Beam
  • Supporta la portabilità delle pipeline tra Cloud Dataflow, Apache Spark e Apache Flink come runtime

Carichi di lavoro consigliati

CARICHI DI LAVORO CLOUD DATAPROC CLOUD DATAFLOW
Elaborazione dei flussi (ETL)
Elaborazione batch (ETL)
Elaborazione iterativa e notebook
Machine learning con Spark ML
Pre-elaborazione per machine learning (con Cloud ML Engine)

Partnership e integrazioni

Partner e sviluppatori di terze parti di Google Cloud Platform hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Grazie all'esecuzione delle nostre pipeline su Cloud Dataflow, possiamo concentrarci sulla programmazione senza doverci preoccupare di provvedere al deployment o alla gestione delle istanze che eseguono il nostro codice (un tratto distintivo di GCP)."

- Jibran Saithi Lead Architect, Qubit

Prezzi orientati agli utenti

I job di Cloud Dataflow vengono fatturati in incrementi al secondo, in base all'utilizzo effettivo dei worker in modalità batch o flusso di Cloud Dataflow. I job che utilizzano altre risorse GCP, ad esempio Cloud Storage o Cloud Pub/Sub, vengono fatturati in base al prezzo del servizio corrispondente.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virginia del Nord (us-east4) Carolina del Sud (us-east1) Montréal (northamerica-northeast1) San Paolo (southamerica-east1) Belgio (europe-west1) Finlandia (europe-north1) Francoforte (europe-west3) Londra (europe-west2) Paesi Bassi (europe-west4) Zurigo (europe-west6) Mumbai (asia-south1) Singapore (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taiwan (asia-east1) Tokyo (asia-northeast1) Osaka (asia-northeast2)
Tipo di worker Cloud Dataflow vCPU
$/h
Memoria
$ GB/h
Archiviazione - Disco permanente standard
$ GB/h
Archiviazione - Disco permanente SSD
$ GB/h
Dati elaborati4,5
$ GB6
Batch 1
FlexRS 2
Flusso 3
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1 Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2 Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

3 Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente

4 Cloud Dataflow Shuffle al momento è disponibile per le pipeline batch nelle seguenti aree geografiche:

  • us-central1 (Iowa)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • asia-northeast1 (Tokyo)

In futuro verrà implementato in altre aree geografiche.

5 Cloud Dataflow Streaming Engine utilizza l'unità di prezzo relativa ai flussi di dati elaborati. Streaming Engine è attualmente disponibile nelle seguenti aree geografiche:

  • us-central1 (Iowa)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • asia-northeast1 (Tokyo)
In futuro verrà implementato in altre aree geografiche.

6 Consulta i prezzi di Cloud Dataflow per ulteriori informazioni sui dati elaborati.

I prodotti di IA Cloud sono conformi alle norme relative allo SLA (accordo sul livello del servizio) elencate qui. Possono offrire garanzie di latenza o disponibilità diverse rispetto ad altri servizi Google Cloud.

Invia feedback per...