Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Panoramica dei prezzi

Mentre la tariffa per i prezzi è calcolata su base oraria, l'utilizzo del servizio Cloud Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore (ad esempio, 30 minuti sono pari a 0,5 ore) al fine di applicare una tariffa oraria a un utilizzo al secondo. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.

Worker e risorse worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e per quelli in modalità flusso sono diversi.

I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo.

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Google Compute Engine per le risorse di Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprenderanno l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, verranno aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse (tipo di macchina, tipo di disco e dimensione del disco) allocate a ciascun worker e utilizzare le GPU.

Servizi di Dataflow

Dataflow Shuffle esegue il partizionamento e il raggruppamento dei dati per chiave in modo scalabile, efficiente e a tolleranza di errore. Per impostazione predefinita, Cloud Dataflow utilizza un'implementazione shuffle che viene interamente eseguita sulle macchine virtuali worker e che consuma CPU, memoria e spazio di archiviazione su disco permanente dei worker.

Dataflow offre anche la funzionalità facoltativa altamente scalabile, Dataflow Shuffle, che è disponibile solo per pipeline batch e per eseguire l'operazione di data shuffling all'esterno dell'ambiente dei worker. Dataflow Shuffle addebita in base al volume dei dati elaborati. Puoi indicare a Cloud Dataflow di utilizzare Shuffle specificando il parametro della pipeline per Shuffle.

Analogamente a Shuffle, Dataflow Streaming Engine trasferisce l'operazione di shuffling di flussi di dati e l'elaborazione degli stati all'esterno dell'ambiente delle VM worker e nel backend del servizio Dataflow. Puoi indicare a Dataflow di utilizzare Streaming Engine per le pipeline in modalità flusso specificando il parametro della pipeline per Streaming Engine. L'utilizzo di Streaming Engine viene fatturato in base al volume dei dati elaborati in modalità flusso, che dipende dal volume di dati importati nella pipeline in modalità flusso e dalla complessità e dal numero di fasi della pipeline. Esempi di ciò che viene considerato come byte elaborato includono flussi di input da origini dati, flussi di dati da una fase accorpata della pipeline a un'altra, flussi di dati rimasti in una fase definita dall'utente o utilizzati per operazioni di windowing e messaggi di output verso data sink, come Pub/Sub o BigQuery.

Dataflow offre anche un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili. Quando Dataflow usa una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Per aiutarti a gestire l'affidabilità delle pipeline in modalità flusso, gli snapshot di Dataflow consentono di salvare e ripristinare lo stato delle pipeline. L'utilizzo di snapshot viene fatturato in base al volume dei dati archiviati, che dipende dal volume dei dati importati nella pipeline in modalità flusso, dalla logica di windowing e dal numero di fasi della pipeline. Puoi acquisire uno snapshot del job di flusso utilizzando l'interfaccia utente web di Dataflow o lo strumento a riga di comando gcloud. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta Utilizzo degli snapshot di Dataflow.

Dataflow Prime

Dataflow Prime è una nuova piattaforma di elaborazione dati che si basa su Dataflow e offre miglioramenti nell'ambito dell'utilizzo delle risorse e della diagnostica distribuita.

I prezzi di un job che esegue Dataflow Prime dipendono dal numero di unità di elaborazione Dataflow (DPU) utilizzate dal job. Le DPU rappresentano le risorse di computing assegnate per eseguire la tua pipeline.

Che cos'è un'unità di elaborazione Dataflow?

Un'unità di elaborazione Dataflow (DPU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora la quantità di risorse utilizzate dai tuoi job. Le DPU monitorano l'utilizzo di varie risorse, tra cui calcolo, memoria, archiviazione su disco, dati sottoposti a data shuffling (in caso di job batch) e dati elaborati in modalità flusso (in caso di job di flusso). Per i job che consumano più risorse risulterà un maggiore utilizzo di DPU rispetto ai job che ne consumano meno. Sebbene non esista una mappatura one-to-one tra le varie risorse consumate dal job e le DPU, una DPU è paragonabile alle risorse utilizzate da un job Dataflow in esecuzione per un'ora su un worker con 1 vCPU, 4 GB di memoria e 250 GB su disco permanente.

Come faccio a ottimizzare il numero di unità di elaborazione Dataflow utilizzate dal mio job?

Non puoi impostare il numero di DPU per i tuoi job. Le DPU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DPU consumate concentrandoti sui seguenti aspetti del tuo job:

  • Riduzione del consumo di memoria.
  • Riduzione della quantità di dati elaborati nel processo di data shuffling mediante filtri, combinazioni e codificatori efficienti.

Per identificare queste ottimizzazioni, puoi utilizzare l'interfaccia di monitoraggio di Dataflow e la scheda Dettagli esecuzione.

Come vengono fatturate le unità di elaborazione Dataflow?

Vengono fatturate al secondo per il numero totale di DPU consumate dal job in una determinata ora. Il prezzo di una singola DPU varia a seconda del tipo di job: batch o flusso.

Come posso limitare il numero di unità di elaborazione Dataflow consumate dal mio job?

Il numero totale di risorse DPU consumate dal tuo job è limitato al numero massimo di risorse che il job può utilizzare. Puoi anche impostare un numero massimo di worker per il job, che limiterà il numero di DPU consumate dal job.

Qual è la differenza tra i prezzi di Dataflow Prime e il modello di prezzi di Dataflow?

Nel modello Dataflow, ti vengono addebitati i costi relativi alle diverse risorse utilizzate dai job: vCPU, memoria, spazio di archiviazione e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.

Le unità di elaborazione Dataflow accorpano queste risorse in un'unica unità di misurazione. Viene poi fatturato il numero di DPU consumate in base al tipo di job, batch o flusso. Il disaccoppiamento delle DPU dalle risorse fisiche semplifica il confronto dei costi tra i job e il monitoraggio dell'utilizzo di Dataflow nel tempo. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.

Che cosa succede ai job esistenti che utilizzano il modello di prezzi di Dataflow?

I job batch e flusso esistenti continueranno a essere fatturati in base al modello di Dataflow. Quando aggiorni i tuoi job per utilizzare Dataflow Prime, verranno fatturati in base alle DPU che consumano.

Risorse aggiuntive per un job

Oltre alle risorse dei worker, un job potrebbe consumare alcune delle seguenti risorse, ciascuna fatturata in base ai relativi prezzi e inclusa a titolo esemplificativo:

Dettagli dei prezzi

Le versioni future di Cloud Dataflow potrebbero avere differenti tariffe di servizio e/o bundle di servizi correlati.

Consulta la pagina Aree geografiche e zone di Compute Engine per ulteriori informazioni sulle aree geografiche disponibili e sulle rispettive zone.

Prezzi delle risorse worker

Prezzi delle altre risorse

Le seguenti risorse vengono fatturate con la stessa tariffa per i job di flussi, batch e FlexRS.

1Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

3Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente

4 Questa funzionalità è disponibile in tutte le aree geografiche in cui è supportato Dataflow. Per conoscere le località disponibili, consulta le località di Dataflow.

I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle.

5 Questa funzionalità è disponibile in tutte le aree geografiche in cui è supportato Dataflow. Per conoscere le località disponibili, consulta le località di Dataflow.

Dettagli dei prezzi di Dataflow Shuffle

Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dei dati Dataflow Shuffle fatturabili sia inferiore a quella dei dati Dataflow Shuffle totali.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati elaborati da un job Aggiustamento di fatturazione
Primi 250 GB Riduzione del 75%
Successivi 4870 GB Riduzione del 50%
Dati rimanenti oltre 5120 GB (5 TB) nessuno

Ad esempio, se la tua pipeline presenta 1024 GB (1 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue: 250 GB * 25% + 774 GB * 50% = 449,5 GB * velocità di elaborazione dati tramite Dataflow Shuffle a livello di area geografica. Se la tua pipeline presenta 10.240 GB (10 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è 250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617,5 GB.

Prezzi degli snapshot

Gli snapshot di Dataflow saranno disponibili in altre aree geografiche al momento della disponibilità generale.

Visualizzazione dell'utilizzo

Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job in Google Cloud Console o tramite lo strumento a riga di comando gcloud. Per monitorare le metriche relative ai dati elaborati tramite Shuffle e in modalità flusso effettivi e addebitabili, utilizza l'interfaccia di monitoraggio di Dataflow. Puoi utilizzare i dati elaborati tramite Shuffle effettivi per valutare le prestazioni della tua pipeline e i dati elaborati tramite Shuffle addebitabili per determinare i costi del job Cloud Dataflow. Per quanto riguarda i dati elaborati in modalità flusso, le metriche relative ai dati effettivi e addebitabili sono identiche.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.

Passaggi successivi

Richiedi un preventivo personalizzato

Grazie ai prezzi con pagamento a consumo di Google Cloud, paghi solo per i servizi che utilizzi. Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.
Contatta il team di vendita