Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Per scoprire come risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno, consulta la pagina relativa agli sconti per impegno di utilizzo (CUD).

Panoramica

L'utilizzo di Dataflow viene fatturato in base alle risorse utilizzate dai job. A seconda del modello di prezzi che utilizzi, le risorse vengono misurate e fatturate in modo diverso.

Risorse di computing Dataflow Risorse di calcolo Dataflow
Unità di calcolo dati (DCU)
(batch e flusso)

Le altre risorse Dataflow fatturate per tutti i job includono Persistent Disk, GPU e snapshot.

Per il job Dataflow potrebbero essere utilizzate risorse di altri servizi. I servizi utilizzati con Dataflow possono includere, tra gli altri, BigQuery, Pub/Sub, Cloud Storage e Cloud Logging.

Sebbene la tariffa per i prezzi sia basata sull'ora, l'utilizzo di Dataflow viene fatturato in incrementi di al secondo, per singolo job. L'utilizzo è espresso in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti corrispondono a 0,5 ore. I worker e i job potrebbero consumare risorse come descritto nelle sezioni seguenti.

Le release future di Dataflow potrebbero avere tariffe di servizio diverse o pacchetti di servizi correlati.

Risorse di computing Dataflow

La fatturazione di Dataflow per le risorse di computing include i seguenti componenti:

Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Regioni e zone di Compute Engine.

CPU e memoria worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I worker batch e flusso hanno costi di servizio separati.

I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali fatturata al secondo:

  • CPU
  • Memoria

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatturazione di Compute Engine per le risorse Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprendono l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker e le rispettive risorse vengono aggiunti e rimossi automaticamente in base all'attivazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come il tipo di macchina, il tipo di disco e le dimensioni, che sono allocate a ciascun worker e che utilizzano GPU.

FlexRS

Dataflow offre un'opzione con prezzi scontati di CPU e memoria per l'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.

Sebbene Dataflow utilizzi una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata di circa il 40% sul costo di CPU e memoria rispetto ai normali prezzi di Dataflow, indipendentemente dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Dati elaborati da Dataflow Shuffle

Per le pipeline batch, Dataflow offre una funzionalità altamente scalabile, Dataflow Shuffle, che esegue lo shuffling dei dati al di fuori dei worker. Per ulteriori informazioni, consulta Dataflow shuffling.

Dataflow shuffle addebita il costo in base al volume dei dati elaborati durante lo shuffling.

Prezzi di Streaming Engine

Per le pipeline in modalità flusso, Dataflow Streaming Engine trasferisce l'shuffling dei flussi di dati e l'elaborazione degli stati dalle VM worker al backend del servizio Dataflow. Per ulteriori informazioni, consulta Streaming Engine.

Unità di calcolo Streaming Engine

Con la fatturazione basata sulle risorse, le risorse di Streaming Engine vengono misurate in unità di calcolo di Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ciascun job, quindi fattura le risorse in base alle risorse totali utilizzate dal job. Per abilitare la fatturazione basata sulle risorse per il job, consulta Utilizzare la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.

Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, i costi vengono fatturati in base alle risorse totali utilizzate da ogni job, ma viene utilizzato lo SKU Data Compute Unit (DCU) al posto dello SKU dell'unità di calcolo di Streaming Engine.

Dati di Streaming Engine elaborati (legacy)

Dataflow continua a supportare la fatturazione basata sui dati legacy. A meno che tu non abbia attivato la fatturazione basata sulle risorse, i job vengono fatturati utilizzando la fatturazione basata sui dati.

La fatturazione elaborata dai dati di Streaming Engine misura l'utilizzo in base al volume dei flussi di dati elaborati, che dipende dai seguenti fattori:

  • Il volume di dati importati nella pipeline in modalità flusso
  • La complessità della pipeline
  • Il numero di fasi della pipeline con operazione di shuffle o con DoFns stateful

Esempi di ciò che viene conteggiato come byte elaborato includono i seguenti elementi:

  • Flussi di input dalle origini dati
  • Flussi di dati da una fase fusa della pipeline a un'altra
  • Flussi di dati persistenti nello stato definito dall'utente o utilizzati per windowing
  • Messaggi di output nei data sink, ad esempio Pub/Sub o BigQuery

Prezzi delle risorse di computing Dataflow - batch e FlexRS

La seguente tabella contiene i dettagli dei prezzi per le risorse worker e i dati elaborati tramite shuffling per i job batch e FlexRS.

1 Valori predefiniti per worker batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non utilizzi Dataflow shuffle, 25 GB su disco permanente se utilizzi Dataflow shuffle

2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

Prezzi delle risorse di computing Dataflow - Flussi di dati

La seguente tabella contiene i dettagli dei prezzi per le risorse worker, i dati elaborati in Streaming Engine (legacy) e le unità di calcolo Streaming Engine per i job di elaborazione in modalità flusso.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

3 Valori predefiniti per worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non utilizzi Streaming Engine, 30 GB su disco permanente se utilizzi Streaming Engine. Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando si esegue un job di streaming. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

4 I prezzi di Dataflow Shuffle si basano sugli aggiustamenti del volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura durante l'shuffling del set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow shuffling. I prezzi di Dataflow Shuffle non sono applicabili ai job Streaming Engine che utilizzano la fatturazione basata sulle risorse.

5 Unità di calcolo Streaming Engine: per i job di elaborazione in modalità flusso che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Questi job non vengono fatturati per i dati elaborati durante lo shuffling.

Aggiustamenti dei volumi per i dati elaborati da Dataflow Shuffle

Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti del volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow shuffling. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dati di shuffling fatturabili elaborati sia inferiore a quella dei dati di shuffling totali elaborati.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati elaborati da Dataflow shuffling Aggiustamento di fatturazione
Primi 250 GB Riduzione del 75%
Successivi 4870 GB Riduzione del 50%
Dati rimanenti oltre 5120 GB (5 TB) nessuno

Ad esempio, se la tua pipeline restituisce 1024 GB (1 TB) di dati totali elaborati da Dataflow Shuffle, l'importo fatturabile viene calcolato come segue:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Se la tua pipeline restituisce 10.240 GB (10 TB) di dati totali elaborati da Dataflow Shuffle, la quantità fatturabile di dati sarà:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Prezzi delle risorse di computing Dataflow Prime

Dataflow Prime è una piattaforma di elaborazione dati che si basa su Dataflow per apportare miglioramenti nell'utilizzo delle risorse e nella diagnostica distribuita.

I prezzi delle risorse di calcolo utilizzate da un job Dataflow Prime sono calcolati in base al numero di unità di calcolo dei dati (DCU). Le DCU rappresentano le risorse di computing allocate per eseguire la pipeline. Le altre risorse Dataflow utilizzate dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono fatturate separatamente.

Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Regioni e zone di Compute Engine.

Unità di calcolo dei dati

Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora il numero di risorse di computing utilizzate dai job. Le risorse monitorate dalle DCU includono vCPU, memoria, dati elaborati da Dataflow Shuffle (per job batch) e dati di Streaming Engine elaborati (per job di flussi di dati). I job che consumano più risorse hanno un maggiore utilizzo di DCU rispetto ai job che consumano meno risorse. Una DCU è paragonabile alle risorse utilizzate da un job Dataflow che viene eseguito per un'ora su un worker con 1 vCPU e 4 GB.

Fatturazione per unità di calcolo dei dati

Ti viene addebitato il numero totale di DCU utilizzate dal job. Il prezzo di una singola DCU varia a seconda che tu disponga di un job batch o di un job di inserimento di flussi. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, i costi vengono fatturati in base alle risorse totali utilizzate anziché al processo di byte.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Ottimizza l'utilizzo delle unità di calcolo dei dati

Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU utilizzate gestendo i seguenti aspetti del job:

  • Riduzione del consumo di memoria
  • Ridurre la quantità di dati elaborati nelle fasi di shuffling utilizzando filtri, combinatori e programmatori efficienti

Per identificare queste ottimizzazioni, utilizza l'interfaccia di monitoraggio di Dataflow e l'interfaccia dei dettagli di esecuzione.

Qual è la differenza tra i prezzi di Dataflow Prime e quelli di Dataflow?

In Dataflow ti vengono addebitate le diverse risorse utilizzate dai job, come vCPU, memoria, Persistent Disk e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.

Le unità di calcolo dei dati consolidano tutte le risorse, tranne l'archiviazione, in un'unica unità di misurazione. Ti vengono addebitati i costi per le risorse Persistent Disk e il numero di DCU consumate in base al tipo di job, al batch o al flusso di dati. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.

Cosa succede ai job esistenti che utilizzano il modello di prezzi di Dataflow?

I job batch e flusso esistenti continuano a essere fatturati utilizzando il modello Dataflow. Quando aggiorni i job per utilizzare Dataflow Prime, i job utilizzeranno il modello di prezzi di Dataflow Prime, in cui vengono fatturate le risorse del Persistent Disk e le DCU utilizzate.

Altre risorse Dataflow

Archiviazione, GPU, snapshot e altre risorse vengono fatturati allo stesso modo per Dataflow e Dataflow Prime.

Prezzi delle risorse di archiviazione

Le risorse di archiviazione vengono fatturate alla stessa tariffa per job di flussi, batch e FlexRS. Puoi utilizzare le opzioni pipeline per modificare la dimensione predefinita del disco o il tipo di disco. Dataflow Prime fattura il Persistent Disk separatamente in base ai prezzi riportati nella tabella seguente.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando si esegue un job di inserimento di flussi. Ogni disco permanente è locale su una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

I job che utilizzano Streaming Engine utilizzano dischi di avvio da 30 GB. I job che utilizzano Dataflow shuffling utilizzano dischi di avvio da 25 GB. Per i job che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è 250 GB in modalità batch e 400 GB in modalità flusso.

L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo del Persistent Disk si basa sul valore esatto di --maxNumWorkers. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.

Prezzi delle risorse GPU

Le risorse GPU vengono fatturate alla stessa tariffa per i job in modalità flusso e batch. FlexRS attualmente non supporta GPU. Per informazioni sulle regioni e sulle zone disponibili per le GPU, consulta la pagina relativa alla disponibilità delle regioni e delle zone GPU nella documentazione di Compute Engine.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Snapshot

Per gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare gli snapshot per salvare e ripristinare lo stato delle pipeline. L'utilizzo degli snapshot viene fatturato in base al volume di dati archiviati, che dipende dai seguenti fattori:

  • Il volume di dati importati nella pipeline in modalità flusso
  • La logica di windowing
  • Il numero di fasi della pipeline

Puoi creare uno snapshot del job di inserimento di flussi utilizzando la console Dataflow o Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta Utilizzo degli snapshot di Dataflow.

Prezzi degli snapshot

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Confidential VM

Confidential VM per Dataflow cripta i dati in uso nelle VM worker Compute Engine. Per ulteriori dettagli, consulta la sezione Concetti di Confidential Computing.

L'utilizzo di Confidential VM per Dataflow comporta costi fissi aggiuntivi per vCPU e per GB.

Prezzi di Confidential VM

I prezzi sono globali e non cambiano in base alla regione di Google Cloud.

Risorse non Dataflow

Oltre all'utilizzo di Dataflow, un job potrebbe consumare le seguenti risorse, ciascuna fatturata in base ai relativi prezzi, inclusi a titolo esemplificativo:

Visualizza l'utilizzo delle risorse

Puoi visualizzare le risorse totali per vCPU, memoria e Persistent Disk associate a un job nel riquadro Informazioni job in Metriche delle risorse. Puoi monitorare le seguenti metriche nell'interfaccia di monitoraggio di Dataflow:

  • Totale tempo vCPU
  • Tempo totale di utilizzo della memoria
  • Tempo totale di utilizzo del disco permanente
  • Totale dati di streaming elaborati
  • Dati di shuffling totali elaborati
  • Dati di shuffling fatturabili elaborati

Puoi utilizzare la metrica Dati shuffling totali elaborati per valutare le prestazioni della pipeline e la metrica Dati shuffling fatturabili per determinare i costi del job Dataflow.

Per Dataflow Prime, puoi visualizzare il numero totale di DCU utilizzate da un job nel riquadro Informazioni job in Metriche delle risorse.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Passaggi successivi

Richiedi un preventivo personalizzato

Grazie ai prezzi con pagamento a consumo di Google Cloud, paghi solo per i servizi che utilizzi. Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.
Contatta il team di vendita