Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Panoramica dei prezzi

Anche se la tariffa per i prezzi è calcolata su base oraria, l'utilizzo del servizio Cloud Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore (ad esempio, 30 minuti sono pari a 0,5 ore) al fine di applicare una tariffa oraria a un utilizzo al secondo. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.

Worker e risorse worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I worker in modalità batch e flusso hanno costi di servizio separati.

I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo.

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Compute Engine per le risorse di Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprendono l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, vengono aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse (tipo di macchina, tipo di disco e dimensione del disco) allocate a ciascun worker e che utilizzano le GPU.

Servizi di Dataflow

Dataflow Shuffle esegue il partizionamento e il raggruppamento dei dati per chiave in modo scalabile, efficiente e a tolleranza di errore. Per informazioni dettagliate sui prezzi, consulta Dettagli dei prezzi in questo documento.

Pipeline batch

Per le pipeline batch, Dataflow fornisce una funzionalità a scalabilità elevata, Dataflow Shuffle, che esegue l'operazione di data shuffling all'esterno dell'ambiente dei worker. Per ulteriori informazioni, consulta Dataflow Shuffle.

Dataflow Shuffle addebita in base al volume dei dati elaborati durante la riproduzione casuale. Per maggiori dettagli sui prezzi, consulta Dettagli dei prezzi di Dataflow Shuffle in questo documento.

Pipeline in modalità flusso

Per le pipeline in modalità flusso, per impostazione predefinita, Dataflow utilizza un'implementazione shuffle che viene interamente eseguita sulle macchine virtuali worker e che consuma CPU, memoria e spazio di archiviazione su disco permanente dei worker.

In alternativa, puoi utilizzare Streaming Engine. Quando utilizzi Streaming Engine, Dataflow Streaming Engine trasferisce l'operazione di shuffling di flussi di dati e l'elaborazione degli stati all'esterno dell'ambiente delle VM worker e nel backend del servizio Dataflow. Per utilizzare Streaming Engine per le pipeline in modalità flusso, specifica il parametro della pipeline per Streaming Engine.

L'utilizzo di Streaming Engine viene fatturato in base al volume dei dati elaborati in modalità flusso, che dipende dal volume di dati importati nella pipeline in modalità flusso e dalla complessità e dal numero di fasi della pipeline. Esempi di ciò che viene considerato come byte elaborato includono flussi di input da origini dati, flussi di dati da una fase accorpata della pipeline a un'altra, flussi di dati rimasti in una fase definita dall'utente o utilizzati per operazioni di windowing e messaggi di output verso data sink, come Pub/Sub o BigQuery. Per maggiori dettagli sui prezzi, consulta la sezione Dettagli dei prezzi in questo documento.

FlexRS

Dataflow offre anche un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.

Anche se Dataflow utilizza una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Snapshot

Per aiutarti a gestire l'affidabilità delle pipeline in modalità flusso, gli snapshot di Dataflow consentono di salvare e ripristinare lo stato delle pipeline. L'utilizzo di snapshot viene fatturato in base al volume dei dati archiviati, che dipende dal volume dei dati importati nella pipeline in modalità flusso, dalla logica di windowing e dal numero di fasi della pipeline. Puoi acquisire uno snapshot del job di flusso utilizzando l'interfaccia utente web di Dataflow o l'interfaccia a riga di comando di Google Cloud. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta la pagina relativa all'utilizzo degli snapshot Dataflow.

Dataflow Prime

Dataflow Prime è una nuova piattaforma di elaborazione dati che si basa su Dataflow e offre miglioramenti nell'ambito dell'utilizzo delle risorse e della diagnostica distribuita.

I prezzi di un job che esegue Dataflow Prime dipendono dal numero di unità di elaborazione Dataflow (DPU) utilizzate dal job. Le DPU rappresentano le risorse di computing assegnate per eseguire la tua pipeline.

Che cos'è un'unità di elaborazione Dataflow?

Un'unità di elaborazione Dataflow (DPU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora la quantità di risorse utilizzate dai tuoi job. Le DPU monitorano l'utilizzo di varie risorse, tra cui calcolo, memoria, archiviazione su disco, dati sottoposti a data shuffling (in caso di job batch) e dati elaborati in modalità flusso (in caso di job di flusso). Per i job che consumano più risorse risulterà un maggiore utilizzo di DPU rispetto ai job che ne consumano meno. Sebbene non esista una mappatura one-to-one tra le varie risorse consumate dal job e le DPU, una DPU è paragonabile alle risorse utilizzate da un job Dataflow in esecuzione per un'ora su un worker con 1 vCPU, 4 GB di memoria e 250 GB su disco permanente.

Come faccio a ottimizzare il numero di unità di elaborazione Dataflow utilizzate dal mio job?

Non puoi impostare il numero di DPU per i tuoi job. Le DPU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DPU consumate concentrandoti sui seguenti aspetti del tuo job:

  • Riduzione del consumo di memoria.
  • Riduzione della quantità di dati elaborati nel processo di data shuffling mediante filtri, combinazioni e codificatori efficienti.

Per identificare queste ottimizzazioni, puoi utilizzare l'interfaccia di monitoraggio di Dataflow e la scheda Dettagli esecuzione.

Come vengono fatturate le unità di elaborazione Dataflow?

Vengono fatturate al secondo per il numero totale di DPU consumate dal job in una determinata ora. Il prezzo di una singola DPU varia a seconda del tipo di job: batch o flusso.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Come posso limitare il numero di unità di elaborazione Dataflow consumate dal mio job?

Il numero totale di risorse DPU consumate dal tuo job è limitato al numero massimo di risorse che il job può utilizzare. Puoi anche impostare un numero massimo di worker per il job, che limiterà il numero di DPU consumate dal job.

Qual è la differenza tra i prezzi di Dataflow Prime e il modello di prezzi di Dataflow?

Nel modello Dataflow, ti vengono addebitati i costi relativi alle diverse risorse utilizzate dai job: vCPU, memoria, spazio di archiviazione e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.

Le unità di elaborazione Dataflow accorpano queste risorse in un'unica unità di misurazione. Viene poi fatturato il numero di DPU consumate in base al tipo di job, batch o flusso. Il disaccoppiamento delle DPU dalle risorse fisiche semplifica il confronto dei costi tra i job e il monitoraggio dell'utilizzo di Dataflow nel tempo. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.

Che cosa succede ai job esistenti che utilizzano il modello di prezzi di Dataflow?

I job batch e flusso esistenti continueranno a essere fatturati in base al modello di Dataflow. Quando aggiorni i tuoi job per utilizzare Dataflow Prime, verranno fatturati in base alle DPU che consumano.

Risorse aggiuntive per un job

Oltre alle risorse dei worker, un job potrebbe consumare alcune delle seguenti risorse, ciascuna fatturata in base ai relativi prezzi e inclusa a titolo esemplificativo:

Dettagli dei prezzi

Le versioni future di Dataflow potrebbero avere differenti tariffe di servizio o bundle di servizi correlati.

Consulta la pagina Aree geografiche e zone di Compute Engine per ulteriori informazioni sulle aree geografiche disponibili e sulle rispettive zone.

Prezzi delle risorse worker

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Prezzi delle altre risorse

Le seguenti risorse vengono fatturate con la stessa tariffa per i job di flussi, batch e FlexRS.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente

2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

3Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente

4 Questa funzionalità è disponibile in tutte le aree geografiche in cui è supportato Dataflow. Per conoscere le località disponibili, consulta le località di Dataflow.

I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle.

5 Questa funzionalità è disponibile in tutte le aree geografiche in cui è supportato Dataflow. Per conoscere le località disponibili, consulta le località di Dataflow.

Dettagli dei prezzi di Dataflow Shuffle

Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dei dati Dataflow Shuffle fatturabili sia inferiore a quella dei dati Dataflow Shuffle totali.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati elaborati da un job Aggiustamento di fatturazione
Primi 250 GB Riduzione del 75%
Successivi 4870 GB Riduzione del 50%
Dati rimanenti oltre 5120 GB (5 TB) nessuno

Ad esempio, se la tua pipeline presenta 1024 GB (1 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue: 250 GB * 25% + 774 GB * 50% = 449,5 GB * velocità di elaborazione dati tramite Dataflow Shuffle a livello di area geografica. Se la tua pipeline presenta 10.240 GB (10 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è 250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617,5 GB.

Prezzi degli snapshot

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Gli snapshot di Dataflow saranno disponibili in altre aree geografiche al momento della disponibilità generale.

Visualizzazione dell'utilizzo

Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job in Google Cloud Console o tramite lo strumento a riga di comando gcloud. Per monitorare le metriche relative ai dati elaborati tramite Shuffle e in modalità flusso effettivi e addebitabili, utilizza l'interfaccia di monitoraggio di Dataflow. Puoi utilizzare i dati elaborati tramite Shuffle effettivi per valutare le prestazioni della tua pipeline e i dati elaborati tramite Shuffle addebitabili per determinare i costi del job Cloud Dataflow. Per quanto riguarda i dati elaborati in modalità flusso, le metriche relative ai dati effettivi e addebitabili sono identiche.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.

Passaggi successivi

Richiedi un preventivo personalizzato

Grazie ai prezzi con pagamento a consumo di Google Cloud, paghi solo per i servizi che utilizzi. Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.
Contatta il team di vendita