Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Panoramica dei prezzi

Mentre la tariffa per i prezzi è calcolata su base oraria, l'utilizzo del servizio Cloud Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore (ad esempio, 30 minuti sono pari a 0,5 ore) al fine di applicare una tariffa oraria a un utilizzo al secondo. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.

Worker e risorse worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e per quelli in modalità flusso sono diversi.

I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo.

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Google Compute Engine per le risorse di Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprenderanno l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, verranno aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse (tipo di macchina, tipo di disco e dimensione del disco) allocate a ciascun worker.

Servizi di Dataflow

Dataflow Shuffle esegue il partizionamento e il raggruppamento dei dati per chiave in modo scalabile, efficiente e a tolleranza di errore. Per impostazione predefinita, Cloud Dataflow utilizza un'implementazione shuffle che viene interamente eseguita sulle macchine virtuali worker e che consuma CPU, memoria e spazio di archiviazione su disco permanente dei worker.

Dataflow offre anche la funzionalità facoltativa altamente scalabile, Dataflow Shuffle, che è disponibile solo per pipeline batch e per eseguire l'operazione di data shuffling all'esterno dell'ambiente dei worker. Dataflow Shuffle addebita in base al volume dei dati elaborati. Puoi indicare a Cloud Dataflow di utilizzare Shuffle specificando il parametro della pipeline per Shuffle.

Analogamente a Shuffle, Dataflow Streaming Engine trasferisce l'operazione di shuffling di flussi di dati e l'elaborazione degli stati all'esterno dell'ambiente delle VM worker e nel backend del servizio Dataflow. Puoi indicare a Dataflow di utilizzare Streaming Engine per le pipeline in modalità flusso specificando il parametro della pipeline per Streaming Engine. L'utilizzo di Streaming Engine viene fatturato in base al volume dei dati elaborati in modalità flusso, che dipende dal volume di dati importati nella pipeline in modalità flusso e dalla complessità e dal numero di fasi della pipeline. Esempi di ciò che viene considerato come byte elaborato includono flussi di input da origini dati, flussi di dati da una fase accorpata della pipeline a un'altra, flussi di dati rimasti in una fase definita dall'utente o utilizzati per operazioni di windowing e messaggi di output verso data sink, come Pub/Sub o BigQuery.

Dataflow offre anche un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili. Quando Dataflow usa una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Risorse aggiuntive per un job

Oltre alle risorse dei worker, un job potrebbe consumare alcune delle seguenti risorse, ciascuna fatturata in base ai relativi prezzi e inclusa a titolo esemplificativo:

Dettagli dei prezzi

Le versioni future di Cloud Dataflow potrebbero avere differenti tariffe di servizio e/o bundle di servizi correlati.

Consulta la pagina Aree geografiche e zone di Compute Engine per ulteriori informazioni sulle aree geografiche disponibili e sulle rispettive zone.

1Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

3Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente

4Dataflow Shuffle al momento è disponibile per le pipeline batch nelle seguenti aree geografiche:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sud)
  • us-east4 (Virginia del Nord)
  • northamerica-northeast1 (Montréal)
  • europe-west2 (Londra)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • europe-west3 (Francoforte)
  • asia-southeast1 (Singapore)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokyo)
  • australia-southeast1 (Sydney)

In futuro verrà implementato in altre aree geografiche.

I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle.

5Dataflow Streaming Engine utilizza l'unità di prezzo relativa ai flussi di dati elaborati. Streaming Engine è attualmente disponibile nelle seguenti aree geografiche:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Carolina del Sud)
  • us-east4 (Virginia del Nord)
  • northamerica-northeast1 (Montréal)
  • europe-west2 (Londra)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • europe-west3 (Francoforte)
  • asia-southeast1 (Singapore)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokyo)
  • australia-southeast1 (Sydney)
In futuro verrà implementato in altre aree geografiche.

Dettagli dei prezzi di Dataflow Shuffle

Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dei dati Dataflow Shuffle fatturabili sia inferiore a quella dei dati Dataflow Shuffle totali.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati elaborati da un job Aggiustamento di fatturazione
Primi 250 GB Riduzione del 75%
Successivi 4870 GB Riduzione del 50%
Dati rimanenti oltre 5120 GB (5 TB) nessuno

Ad esempio, se la tua pipeline presenta 1024 GB (1 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue: 250 GB * 25% + 774 GB * 50% = 449,5 GB * velocità di elaborazione dati tramite Dataflow Shuffle a livello di area geografica. Se la tua pipeline presenta 10.240 GB (10 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è 250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617,5 GB.

Visualizzazione dell'utilizzo

Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job in Google Cloud Console o tramite lo strumento a riga di comando gcloud. Per monitorare le metriche relative ai dati elaborati tramite Shuffle e in modalità flusso effettivi e addebitabili, utilizza l'interfaccia di monitoraggio di Dataflow. Puoi utilizzare i dati elaborati tramite Shuffle effettivi per valutare le prestazioni della tua pipeline e i dati elaborati tramite Shuffle addebitabili per determinare i costi del job Cloud Dataflow. Per quanto riguarda i dati elaborati in modalità flusso, le metriche relative ai dati effettivi e addebitabili sono identiche.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.