Prezzi di Dataflow
In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.
Per scoprire come risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno, consulta la nostra pagina sugli sconti per impegno di utilizzo.
Panoramica
L'utilizzo di Dataflow viene fatturato in base alle risorse utilizzate dai job. A seconda del modello di prezzo utilizzato, le risorse vengono misurate e fatturate in modo diverso.
Risorse di calcolo di Dataflow | Risorse di calcolo Dataflow Prime |
|
Data Compute Unit (DCUs) (in modalità batch e flusso) |
Le altre risorse Dataflow fatturate per tutti i job includono Persistent Disk, GPU e snapshot.
Per il job di Dataflow potrebbero essere utilizzate risorse di altri servizi. I servizi utilizzati con Dataflow possono includere, tra gli altri, BigQuery, Pub/Sub, Cloud Storage e Cloud Logging.
Sebbene la tariffa per i prezzi sia calcolata su base oraria, l'utilizzo di Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti corrispondono a 0,5 ore. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.
Le versioni future di Dataflow potrebbero avere tariffe di servizio diverse o bundle di servizi correlati.
Risorse delle computing di Dataflow
La fatturazione di Dataflow per le risorse di computing include i seguenti componenti:
- CPU e memoria del worker
- Dati di Dataflow Shuffle elaborati per carichi di lavoro in batch
- Unità di calcolo Streaming Engine
- dati elaborati da Streaming Engine
Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Compute Engine Regioni e zone.
CPU e memoria del worker
Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e in modalità flusso sono diversi.
I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo:
- CPU
- Memoria
I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Google Compute Engine per le risorse di Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprenderanno l'utilizzo di queste risorse Compute Engine.
Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, vengono aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.
Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come il tipo di macchina, il tipo di disco e la dimensione del disco, assegnate a ciascun worker e che utilizzano le GPU.
FlexRS
Dataflow offre un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.
Sebbene Dataflow usi una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa uniforme scontata di circa il 40% sui costi di CPU e memoria rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.
Dati di Dataflow Shuffle elaborati
Per le pipeline in modalità batch, Dataflow offre una funzionalità altamente scalabile, Dataflow Shuffle, che esegue il riattribuzione dei dati all'esterno dei worker. Per saperne di più, consulta Dataflow Shuffle.
Dataflow Shuffle addebita in base al volume dei dati elaborati durante il trasferimento.
Prezzi di Streaming Engine
Per le pipeline in modalità flusso, Dataflow Streaming Engine trasferisce l'operazione di shuffling di flussi di dati e l'elaborazione degli stati all'esterno dell'ambiente delle VM worker e nel backend del servizio Dataflow. Per saperne di più, consulta la guida aStreaming Engine.
Unità di calcolo Streaming Engine
Con la fatturazione basata sulle risorse, le risorse di Streaming Engine sono misurate in unità di calcolo di Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ogni job e poi emette fatture in base al totale delle risorse utilizzate dal job. Per abilitare la fatturazione basata sulle risorse per il tuo lavoro, consulta l'articolo Utilizza la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.
Quando utilizzi Dataflow Prime con fatturazione basata sulle risorse, la fatturazione si basa sulle risorse totali utilizzate da ogni job, ma viene utilizzata la SKU Data Compute Unit (DCU) anziché l'SKU di unità di calcolo di Streaming Engine.
Dati elaborati da Streaming Engine (legacy)
Dataflow continua a supportare la fatturazione legacy per il trattamento dei dati. A meno che tu nonabiliti la fatturazione basata su risorse, i job vengono fatturati utilizzando la fatturazione basata su dati elaborati.
La fatturazione basata sui dati elaborati di Streaming Engine misura l'utilizzo in base al volume di dati in modalità flusso elaborati, che dipende dai seguenti fattori:
- Il volume di dati importati nella tua pipeline di flussi di dati
- La complessità della pipeline
- Il numero di fasi della pipeline con operazioni di ordinamento casuale o con DoFn stateful
Alcuni esempi di ciò che viene considerato come byte elaborato includono i seguenti elementi:
- Flussi di input dalle origini dati
- Flussi di dati da una fase della pipeline di fusione a un'altra fase di fusione
- Flussi di dati persistono in uno stato definito dall'utente o vengono utilizzati per il windowing
- Invia messaggi in uscita a sink di dati, ad esempio Pub/Sub o BigQuery
Prezzi delle risorse di computing di Dataflow - Batch e FlexRS
La tabella seguente contiene i dettagli dei prezzi per le risorse di worker e i dati di Shuffle elaborati per i job batch e FlexRS.
1 Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non si utilizza il Dataflow Shuffle, 25 GB su disco permanente se si utilizza il Dataflow Shuffle
2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker
Prezzi delle risorse di calcolo di Dataflow - elaborazione in batch
La tabella seguente contiene i dettagli dei prezzi per le risorse worker, i dati elaborati da Streaming Engine (legacy) e le unità di calcolo di Streaming Engine per i job in modalità flusso.
3 Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non si utilizza Streaming Engine, 30 GB su disco permanente se si utilizza Streaming Engine. Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando esegue un job in modalità flusso. Una proporzione di 1:1 tra worker e dischi è l'allocazione minima delle risorse.
4 I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per saperne di più, vedi Dettagli dei prezzi di Dataflow Shuffle. I prezzi di Dataflow Shuffle non si applicano ai job di Streaming Engine che utilizzano la fatturazione basata su risorse.
5 Unità di calcolo Streaming Engine: per job in modalità flusso che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Per questi job, non viene addebitato alcun importo per i dati elaborati durante il rimescolamento.
Correzioni del volume per i dati di Dataflow Shuffle elaborati
Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dei dati shuffle fatturabili elaborati sia inferiore a quella dei dati shuffle totali elaborati.
La seguente tabella spiega come vengono applicati questi aggiustamenti:
Dati di Dataflow Shuffle elaborati | Aggiustamento di fatturazione |
Primi 250 GB | Riduzione del 75% |
Successivi 4870 GB | Riduzione del 50% |
Dati rimanenti oltre 5120 GB (5 TB) | nessuno |
Ad esempio, se la tua pipeline presenta 1024 GB (1 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Se la tua pipeline presenta 10.240 GB (10 TB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Prezzi delle risorse di calcolo di Dataflow Prime
Dataflow Prime è una piattaforma di elaborazione dati basata su Dataflow che offre miglioramenti nell'ambito dell'utilizzo delle risorse e della diagnostica distribuita.
Le risorse di computing utilizzate da un job Dataflow Prime hanno un prezzo in base al numero di unità di calcolo dei dati (DCU). Le DCU rappresentano le risorse di computing allocate per eseguire la pipeline. Le altre risorse Dataflow utilizzate dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono fatturate separatamente.
Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta la pagina Compute Engine Regioni e zone.
Unità di elaborazione dati
Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora il numero di risorse di calcolo utilizzate dai tuoi job. Le risorse monitorate dalle DCU includono vCPU, memoria, dati elaborati da Dataflow Shuffle (per i job batch) e dati elaborati da Streaming Engine (per i job in modalità flusso). I job che consumano più risorse hanno un maggiore utilizzo di DCU rispetto ai job che ne consumano meno. Un'unità DCU è paragonabile alle risorse utilizzate da un job Dataflow in esecuzione per un'ora su un worker con 1 vCPU e 4 GB di memoria.
Fatturazione delle unità di calcolo dei dati
Ti viene addebitato il numero totale di unità DCU consumate dal tuo job. Il prezzo di una singola DCU varia in base al fatto che tu abbia un job batch o in modalità flusso. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, la fattura è basata sul totale delle risorse utilizzate anziché sul processo di byte.
Ottimizza l'utilizzo delle unità di calcolo dei dati
Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU consumate gestendo i seguenti aspetti del tuo job:
- Riduzione del consumo di memoria
- Riduzione della quantità di dati elaborati nel processo di shuffling mediante filtri, combinazioni e codificatori efficienti
Per identificare queste ottimizzazioni, puoi utilizzare l'interfaccia di monitoraggio di Dataflow e la scheda Dettagli esecuzione.
Qual è la differenza tra i prezzi di Dataflow Prime e i prezzi di Dataflow?
Nel modello Dataflow, ti vengono addebitati i costi relativi alle diverse risorse utilizzate dai job, come vCPU, memoria, Persistent Disk e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.
Le unità di calcolo dei dati accorpano tutte le risorse, ad eccezione dell'archiviazione, in un'unica unità di misurazione. Viene addebitato il costo delle risorse del Persistent Disk e il numero di DCU consumate in base al tipo di job, batch o flusso. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.
Che cosa succede ai job esistenti che utilizzano il modello di prezzi di Dataflow?
I job batch e flusso esistenti continueranno a essere fatturati in base al modello di Dataflow. Quando aggiorni i tuoi job per utilizzare Dataflow Prime, i job utilizzeranno il modello di prezzi di Dataflow Prime, in cui vengono fatturati per le risorse del Persistent Disk e per le DCU consumate.
Altre risorse Dataflow
Archiviazione, GPU, snapshot e altre risorse vengono fatturate nello stesso modo per Dataflow e Dataflow Prime.
Prezzi delle risorse di archiviazione
Le risorse di archiviazione vengono fatturate con la stessa tariffa per i job di flussi, batch e FlexRS. Puoi utilizzare le opzioni pipeline per modificare la dimensione o il tipo di disco predefinito. Dataflow Prime addebita il Persistent Disk separatamente in base ai prezzi indicati nella tabella seguente.
Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job in modalità flusso. Ogni disco permanente è locale a una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra nodi di lavoro e dischi è l'assegnazione minima di risorse.
I job che utilizzano Streaming Engine usano dischi di avvio da 30 GB. I job che utilizzano Dataflow Shuffle utilizzano dischi di avvio da 25 GB. Per i job che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è di 250 GB in modalità batch e 400 GB in modalità flusso.
L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre
l'utilizzo di Persistent Disk si basa sul valore esatto di --maxNumWorkers
. I dischi permanenti
vengono ridistribuiti in modo che ogni worker abbia un numero uguale di dischi collegati.
Prezzi delle risorse GPU
Le risorse GPU vengono fatturate con la stessa tariffa per i job di flussi e batch. FlexRS non supporta attualmente le GPU. Per informazioni sulle regioni e sulle zone disponibili per le GPU, consulta la sezione Disponibilità di regioni e zone per le GPU della documentazione di Compute Engine.
Snapshot
Per aiutarti a gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare gli snapshot per salvare e ripristinare lo stato delle pipeline. L'utilizzo di snapshot viene fatturato in base al volume dei dati archiviati, che dipende dai seguenti fattori:
- Il volume di dati importati nella tua pipeline di flussi di dati
- La tua logica di suddivisione in finestre
- Il numero di fasi della pipeline
Puoi acquisire uno snapshot del job di flusso utilizzando la console Dataflow o Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta la pagina Utilizzo degli snapshot di Dataflow.
Prezzi degli snapshot
Confidential VM
Confidential VM per Dataflow cripta i dati in uso sulle VM worker di Compute Engine. Per ulteriori dettagli, consulta la Panoramica di Confidential VM.
L'utilizzo di Confidential VM per Dataflow comporta costi fissi aggiuntivi per vCPU e per GB.
Prezzi di Confidential VM
I prezzi sono globali e non cambiano in base alla regione Google Cloud.
Risorse non Dataflow
Oltre all'utilizzo di Dataflow, un job potrebbe consumare alcune delle seguenti risorse, ciascuna fatturata in base ai relativi prezzi e inclusa a titolo esemplificativo:
-
I job di Dataflow utilizzano Cloud Storage per archiviare i file temporanei durante l'esecuzione della pipeline. Per evitare l'addebito di costi di archiviazione non necessari, disattiva la funzionalità di eliminazione temporanea sui bucket utilizzati dai job di Dataflow per l'archiviazione temporanea. Per saperne di più, vedi Rimuovere un criterio di eliminazione morbida da un bucket.
-
Puoi eseguire il routing dei log verso altre destinazioni o escludere i log dall'importazione. Per informazioni su come ottimizzare il volume dei log per i job Dataflow, consulta la sezione relativa al controllo del volume dei log di Dataflow.
Visualizza l'utilizzo delle risorse
Puoi visualizzare le risorse totali per vCPU, memoria e Persistent Disk associate a un job nel riquadro Informazioni sul job in Metriche delle risorse. Per monitorare le seguenti metriche, utilizza l'interfaccia di monitoraggio di Dataflow:
- Totale tempo vCPU
- Tempo di utilizzo totale della memoria
- Tempo di utilizzo totale di Persistent Disk
- Totale dati di streaming elaborati
- Totale dati Shuffle elaborati
- Dati Shuffle fatturabili elaborati
Puoi utilizzare la metrica Totale dati elaborati tramite Shuffle per valutare le prestazioni della tua pipeline e la metrica Dati elaborati tramite Shuffle addebitabili per determinare i costi del job Dataflow.
Per Dataflow Prime, puoi visualizzare il numero totale di DCU consumati da un job nel riquadro Informazioni sul job in Metriche delle risorse.
Calcolatore prezzi
Utilizza il Google Cloud Calcolatore prezzi per capire meglio in che modo vengono calcolate le fatture.
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Passaggi successivi
- Leggi la documentazione di Dataflow.
- Inizia a utilizzare Dataflow.
- Prova il Calcolatore prezzi.
- Scopri di più su soluzioni e casi d'uso di Dataflow.