Prezzi di Cloud Dataflow

In questa pagina vengono descritti i prezzi per Cloud Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Panoramica dei prezzi

Mentre la tariffa per i prezzi è calcolata su base oraria, l'utilizzo del servizio Cloud Dataflow viene fatturato al secondo per singolo job. L'utilizzo è espresso in ore (ad esempio, 30 minuti sono pari a 0,5 ore) al fine di applicare una tariffa oraria a un utilizzo al secondo. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.

Worker e risorse worker

Ogni job Cloud Dataflow utilizza almeno un worker Cloud Dataflow. Il servizio Cloud Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e per quelli in modalità flusso sono diversi.

I worker Cloud Dataflow consumano le seguenti risorse, ognuna delle quali è fatturata al secondo.

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Cloud Dataflow non emette fatture di Compute Engine per le risorse Compute Engine gestite dal servizio Cloud Dataflow. I costi del servizio Cloud Dataflow comprenderanno l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, verranno aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse (tipo di macchina, tipo di disco e dimensione del disco) allocate a ciascun worker.

Servizi di Cloud Dataflow

Cloud Dataflow Shuffle esegue il partizionamento e il raggruppamento dei dati per chiave in modo scalabile, efficiente e a tolleranza di errore. Per impostazione predefinita, Cloud Dataflow utilizza un'implementazione di ordinamento sistematico dei dati che viene interamente eseguita sulle macchine virtuali worker e che consuma CPU, memoria e spazio di archiviazione su disco permanente dei worker.

Cloud Dataflow offre inoltre una funzionalità facoltativa a scalabilità elevata, denominata Cloud Dataflow Shuffle, per l'ordinamento sistematico dei dati all'esterno dell'ambiente dei worker. Questa funzionalità è disponibile solo per pipeline batch e viene addebitata in base al volume dei dati elaborati. Puoi indicare a Cloud Dataflow di utilizzare Shuffle specificando il parametro della pipeline per Shuffle.

Analogamente a Shuffle, Cloud Dataflow Streaming Engine trasferisce l'ordinamento sistematico in modalità flusso e l'elaborazione degli stati all'esterno dell'ambiente dei VM worker e nel backend del servizio Cloud Dataflow. Puoi indicare a Cloud Dataflow di utilizzare Streaming Engine per le pipeline in modalità flusso specificando il parametro della pipeline per Streaming Engine. L'utilizzo di Streaming Engine viene fatturato in base al volume dei dati in modalità flusso elaborati, che dipende dal volume di dati importati nella pipeline in modalità flusso e dalla complessità e dal numero di fasi della pipeline. Esempi di ciò che viene considerato come byte elaborato includono flussi di input da origini dati, flussi di dati da una fase accorpata della pipeline a un'altra, flussi di dati rimasti in una fase definita dall'utente o utilizzati per operazioni di windowing e uscita di messaggi a sink di dati, come Cloud Pub/Sub o BigQuery.

Cloud Dataflow offre anche un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Cloud Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Cloud Dataflow in batch in una finestra di 6 ore per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili. Quando Cloud Dataflow usa una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata rispetto ai normali prezzi di Cloud Dataflow, a prescindere dal tipo di worker. Puoi chiedere a Cloud Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Risorse aggiuntive per un job

Oltre alle risorse dei worker, un job potrebbe consumare alcune delle seguenti risorse, ciascuna fatturata in base ai relativi prezzi e inclusa a titolo esemplificativo:

Dettagli dei prezzi

Le release future di Cloud Dataflow potrebbero avere tariffe di servizio diverse e/o un bundle di servizi correlati.

Consulta la pagina Aree geografiche e zone di Compute Engine per ulteriori informazioni sulle aree geografiche disponibili e sulle rispettive zone.

1 Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2 Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

3 Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 420 GB su disco permanente

4 Cloud Dataflow Shuffle al momento è disponibile per le pipeline batch nelle seguenti aree geografiche:

  • us-central1 (Iowa)
  • us-west1 (Oregon)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokyo)

In futuro verrà implementato in altre aree geografiche.

5 Cloud Dataflow Streaming Engine utilizza l'unità di prezzo relativa ai flussi di dati elaborati. Streaming Engine è attualmente disponibile nelle seguenti aree geografiche:

  • us-central1 (Iowa)
  • us-west1 (Oregon)
  • europe-west1 (Belgio)
  • europe-west4 (Paesi Bassi)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokyo)
In futuro verrà implementato in altre aree geografiche.

6 Prima del 3 maggio 2018, Cloud Dataflow Shuffle veniva fatturato in base alla quantità di dati sottoposti a data shuffling moltiplicata per il tempo impiegato per sottoporre i dati a data shuffling e conservarli nella memoria di Shuffle. Il prezzo era di $ 0,0216 per gigabyte all'ora. A partire dal 3 maggio 2018, i prezzi di Shuffle vengono calcolati esclusivamente in base alla quantità di dati che l'infrastruttura di servizio Cloud Dataflow legge e scrive durante il processo di shuffling del tuo set di dati. L'unità di prezzo è rappresentata dai gigabyte senza nessuna considerazione dei tempi nei calcoli di fatturazione. Gli utenti con set di dati di dimensioni grandi o molto grandi dovrebbero osservare notevoli riduzioni nei costi totali di Shuffle.
Per incoraggiare l'adozione di Shuffle basato su servizi, i primi 5 TB di dati elaborati tramite Shuffle vengono addebitati a tariffe ridotte del 50%. Ad esempio, se la tua pipeline presenta 1 TB di dati elaborati tramite Shuffle effettivi, ti viene addebitato solo il 50% di tale volume di dati (0,5 TB). Se la pipeline presenta 10 TB di dati elaborati tramite Shuffle effettivi, ti vengono addebitati 7,5 TB, poiché i primi 5 TB di tale volume vengono addebitati a una tariffa ridotta del 50%.

Visualizzazione dell'utilizzo

Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job nella console di Google Cloud Platform o tramite lo strumento a riga di comando gcloud. Per tenere traccia delle metriche relative ai dati elaborati tramite Shuffle e Streaming effettivi e addebitabili, utilizza l'interfaccia di monitoraggio di Cloud Dataflow. Puoi utilizzare i dati elaborati tramite Shuffle effettivi per valutare le prestazioni della tua pipeline e i dati elaborati tramite Shuffle addebitabili per determinare i costi del job Cloud Dataflow. Per quanto riguarda i dati elaborati tramite Streaming, le metriche effettive e addebitabili sono identiche.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.

Hai trovato utile questa pagina? Facci sapere cosa ne pensi:

Invia feedback per...

Hai bisogno di assistenza? Visita la nostra pagina di assistenza.