Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Per scoprire come risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno impegno, consulta la pagina relativa agli sconti per impegno di utilizzo (CUD).

Panoramica

L'utilizzo di Dataflow viene fatturato per le risorse utilizzate dai tuoi job. A seconda del modello di determinazione del prezzo che utilizzi, le risorse vengono misurate e fatturate in modo diverso.

Risorse di calcolo Dataflow Risorse di calcolo di Dataflow Prime
Unità di calcolo dei dati (DCU)
(batch e flussi)

Altre risorse Dataflow che vengono fatturati per tutti i job includono Persistent Disk, GPU e snapshot.

Potrebbero essere utilizzate risorse di altri servizi per il Dataflow un lavoro. I servizi utilizzati con Dataflow possono includere BigQuery, Pub/Sub, Cloud Storage e Cloud Logging, tra gli altri.

Sebbene la tariffa per i prezzi si basi su un'ora, Dataflow l'utilizzo viene fatturato in incrementi di al secondo per singolo job. L'utilizzo è indicato in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti equivalgono a 0,5 ore. I worker e i job potrebbero consumare risorse descritti nelle sezioni seguenti.

Le versioni future di Dataflow potrebbero avere tariffe di servizio diverse o il raggruppamento di servizi correlati.

Risorse di computing di Dataflow

Fatturazione Dataflow per le risorse di computing include i seguenti componenti:

Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta Regioni e zone di Compute Engine .

CPU e memoria worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I worker batch e flusso hanno costi di servizio separati.

I worker Dataflow utilizzano le seguenti risorse, ciascuna fatturata al secondo:

  • CPU
  • Memoria

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette Fatturazione Compute Engine per le risorse Compute Engine gestite da il servizio Dataflow. Invece, il servizio Dataflow includono l'uso di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi con scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. Lavoratori e le rispettive risorse vengono aggiunte e rimosse automaticamente in base l'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come tipo di macchina, tipo di disco e disco allocati a ciascun worker e che utilizzano GPU.

FlexRS

Dataflow offre un'opzione con CPU e memoria scontate per l'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.

Sebbene Dataflow utilizza una combinazione di worker per eseguire un job FlexRS, ti viene addebitato tariffa scontata di circa il 40% sui costi di CPU e memoria rispetto ai costi standard I prezzi di Dataflow, indipendentemente il tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Dati di Dataflow Shuffle elaborati

Per le pipeline batch, Dataflow offre una funzionalità altamente scalabile, Dataflow Shuffle, che esegue lo shuffling dei dati all'esterno dei worker. Per ulteriori informazioni, vedi Dataflow Shuffle.

Dataflow Shuffle addebita i costi in base al volume di dati elaborati durante la riproduzione casuale.

Prezzi di Streaming Engine

Per le pipeline in modalità flusso, Dataflow Streaming Engine si sposta shuffling ed elaborazione dello stato in modalità flusso dalle VM worker Backend del servizio Dataflow. Per ulteriori informazioni, vedi Motore di flussi di dati.

Unità di calcolo Streaming Engine

Con la fatturazione basata sulle risorse, le risorse di Streaming Engine vengono misurate in Unità di calcolo Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ciascun job e fattura in base alle risorse totali utilizzate da quel job. Per abilitare la fatturazione basata sulle risorse per il job, consulta Utilizza la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.

Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, la fatturazione si basa sulle risorse totali utilizzate da ciascun job, Lo SKU DCU (Data Compute Unit) viene utilizzato al posto della SKU unità di calcolo Streaming Engine.

Dati elaborati da Streaming Engine (legacy)

Dataflow continua per supportare la fatturazione elaborata con i dati legacy. A meno che tu non abilitare la fatturazione basata sulle risorse, i job vengono fatturati utilizzando la fatturazione trattata con i dati.

La fatturazione elaborata con i dati di Streaming Engine misura l'utilizzo in base al volume di l'elaborazione dei flussi di dati, che dipende dai seguenti fattori:

  • Il volume di dati importati nella pipeline in modalità flusso
  • La complessità della pipeline
  • Il numero di fasi della pipeline con operazione di shuffling o con DFn stateful

Ecco alcuni esempi di ciò che viene conteggiato come byte elaborato:

  • Flussi di input da origini dati
  • Flussi di dati da una fase unificata della pipeline a un'altra
  • Flussi di dati mantenuti in stato definito dall'utente o utilizzati per il windowing
  • Inviare messaggi di output a sink di dati, ad esempio in Pub/Sub o BigQuery

Prezzi delle risorse di calcolo di Dataflow - batch e FlexRS

La tabella seguente contiene i dettagli dei prezzi per le risorse worker e Shuffle elaborati per job batch e FlexRS.

1 Valori predefiniti per i worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non si utilizza Dataflow Shuffle, 25 GB di disco permanente se si utilizza Dataflow Shuffle

2Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

Prezzi delle risorse di calcolo di Dataflow - Flussi di dati

La tabella seguente contiene i dettagli dei prezzi per le risorse worker, i flussi di dati Dati di Engine elaborati (legacy) e unità di calcolo Streaming Engine per i flussi di dati di lavoro.

. Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, i prezzi elencati nella tua valuta su SKU di Cloud Platform .

3 Valori predefiniti per un worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non si utilizza Streaming Engine, su disco permanente da 30 GB se si utilizza Streaming Engine. La Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando di un job in modalità flusso. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

4 I prezzi di Dataflow Shuffle si basano sugli aggiustamenti del volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura durante lo shuffling del set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle. I prezzi di Dataflow Shuffle non sono applicabili ai job di Streaming Engine che utilizzano la fatturazione basata sulle risorse.

5 Unità di calcolo Streaming Engine: per job in modalità flusso che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Questi job non vengono fatturati per i dati elaborati durante lo shuffling.

Regolazioni del volume per i dati di Dataflow Shuffle elaborati

Gli addebiti vengono calcolati per job Dataflow attraverso aggiustamenti di volume applicati all'importo totale di di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza comporta la metrica dati shuffle fatturabili elaborati è inferiore alla metrica Dati shuffling totali elaborati.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati di Dataflow Shuffle elaborati Aggiustamento di fatturazione
Primi 250 GB Riduzione del 75%
Successivi 4870 GB Riduzione del 50%
Dati rimanenti oltre 5120 GB (5 TB) nessuno

Ad esempio, se la pipeline restituisce 1024 GB (1 TB) di dati Dataflow Shuffle totali elaborati, l'importo fatturabile viene calcolato come segue:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Se la pipeline genera 10.240 GB (10 TB) di dati Dataflow Shuffle totali elaborati, la quantità fatturabile di dati è:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Prezzi delle risorse di calcolo di Dataflow Prime

Dataflow Prime è una piattaforma di elaborazione dati che si basa su Dataflow per miglioramenti nell'utilizzo delle risorse e nella diagnostica distribuita.

Il prezzo delle risorse di calcolo utilizzate da un job Dataflow Prime dipende dal numero di dati Unità di calcolo (DCU). Le DCU rappresentano le risorse di calcolo allocate per eseguire la pipeline. Altre risorse Dataflow utilizzati dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono con fatturazione separata.

Per ulteriori informazioni sulle regioni disponibili e sulle rispettive zone, consulta Regioni e zone di Compute Engine .

Unità di calcolo dati

Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che tiene traccia del numero di risorse di calcolo utilizzate dai tuoi job. Risorse monitorate per DCU includono vCPU, memoria e dati elaborati tramite Dataflow Shuffle (per job batch) e dati di Streaming Engine elaborati (per job in modalità flusso). Lavori che consumano più risorse hanno un utilizzo di DCU maggiore rispetto ai job che consumano meno risorse. Una DCU è paragonabile alle risorse utilizzate da un Job Dataflow eseguito per un'ora su un worker da 1 vCPU e 4 GB.

Fatturazione per Data Compute Unit

Ti verrà addebitato il numero totale di DCU utilizzate dal job. Il prezzo di una singola DCU varia a seconda che tu un job batch o un job di flussi. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, e fatturati in base alle risorse totali utilizzate al posto dei byte di processo.

. Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, i prezzi elencati nella tua valuta su SKU di Cloud Platform .

Ottimizza l'utilizzo delle unità di calcolo dei dati

Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU utilizzate gestendo quanto segue del tuo lavoro:

  • Riduzione del consumo di memoria
  • Ridurre la quantità di dati elaborati nei passaggi di shuffling utilizzando filtri, combinatori e programmatori efficienti

Per identificare queste ottimizzazioni, utilizza la classe Interfaccia di monitoraggio di Dataflow e l'interfaccia dei dettagli di esecuzione.

Quali sono le differenze tra i prezzi di Dataflow Prime e i prezzi di Dataflow?

In Dataflow, ti vengono addebitate le diverse risorse dei job, come vCPU, memoria, Persistent Disk e la quantità di dati Dataflow Shuffle o Streaming Engine.

Le unità di calcolo dei dati consolidano tutte le risorse, tranne l'archiviazione, in un una singola unità di misurazione. Ti vengono addebitati i costi per le risorse Persistent Disk e numero di DCU utilizzate in base al tipo di job, batch o flusso. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.

Cosa succede ai miei job esistenti che utilizzano il modello di prezzi di Dataflow?

I job batch e flussi esistenti continuano a essere fatturati utilizzando modello Dataflow. Quando aggiorni le offerte di lavoro in utilizzano Dataflow Prime, i job e poi usare il modello di prezzi di Dataflow Prime, in cui viene fatturato il Persistent Disk per le DCU consumate.

Altre risorse Dataflow

Spazio di archiviazione, GPU, snapshot e altre risorse vengono addebitati allo stesso modo di Dataflow e Dataflow Prime.

Prezzi delle risorse di archiviazione

Le risorse di archiviazione vengono fatturate alla stessa tariffa per flussi di dati, batch e FlexRS di lavoro. Puoi utilizzare opzioni pipeline per modificare le dimensioni o il tipo di disco predefiniti. Dataflow Prime fattura il Persistent Disk separatamente in base ai prezzi nella seguente.

. Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, i prezzi elencati nella tua valuta su SKU di Cloud Platform .

Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job in flussi. Ogni disco permanente è locale a una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

I job che utilizzano Streaming Engine utilizzano 30 GB i dischi di avvio. Job che utilizzano Dataflow Shuffle e usare dischi di avvio da 25 GB. Per le posizioni lavorative che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è di 250 GB in modalità batch 400 GB in modalità streaming.

L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre L'utilizzo del Persistent Disk si basa sul valore esatto di --maxNumWorkers. Dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.

Prezzi delle risorse GPU

Le risorse GPU vengono fatturate alla stessa tariffa per i job batch e per flussi di dati. FlexRS al momento non supporta le GPU. Per informazioni sulle regioni disponibili e per le GPU, consulta Disponibilità di regioni e zone GPU nella documentazione di Compute Engine.

. Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, i prezzi elencati nella tua valuta su SKU di Cloud Platform .

Snapshot

Per gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare per salvare e ripristinare lo stato della pipeline. L'utilizzo degli snapshot viene fatturato in base al volume di dati archiviati, che dipende dai seguenti fattori:

  • Il volume di dati importati nella pipeline in modalità flusso
  • La logica del windowing
  • Il numero di fasi della pipeline

Puoi acquisire uno snapshot del tuo job di flussi di dati utilizzando Dataflow Google Cloud CLI o Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, vedi Utilizzo degli snapshot Dataflow.

Prezzi degli snapshot

. Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, i prezzi elencati nella tua valuta su SKU di Cloud Platform .

Confidential VM

Confidential VM per Dataflow cripta i dati in uso su delle VM di Compute Engine worker. Per ulteriori dettagli, vedi Panoramica di Confidential VM.

L'utilizzo di Confidential VM per Dataflow comporta per vCPU e per GB.

Prezzi di Confidential VM

I prezzi sono globali e non cambiano in base alla regione di Google Cloud.

Risorse non Dataflow

Oltre all'utilizzo di Dataflow, un job potrebbe consumare quanto segue risorse, ciascuna fatturata in base ai propri prezzi, inclusi, a titolo esemplificativo:

Visualizza l'utilizzo delle risorse

Puoi visualizzare le risorse totali per vCPU, memoria e Persistent Disk associate con un job nel riquadro Informazioni job in Metriche risorsa. Tu puoi monitorare le seguenti metriche Interfaccia di monitoraggio di Dataflow:

  • Totale tempo vCPU
  • Tempo totale di utilizzo della memoria
  • Tempo di utilizzo totale del disco permanente
  • Totale dati di streaming elaborati
  • Dati shuffling totali elaborati
  • Dati shuffling fatturabili elaborati

Puoi utilizzare la metrica Dati shuffling totali elaborati per valutare il rendimento dei della tua pipeline e la metrica Dati shuffling fatturabili elaborati per determinare i costi. del job Dataflow.

Per Dataflow Prime, puoi visualizzare il numero totale di DCU utilizzate da un job nel riquadro Informazioni job in Metriche delle risorse.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud Platform per capire meglio in che modo vengono calcolate le fatture.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

Passaggi successivi

Richiedi un preventivo personalizzato

Con i prezzi con pagamento a consumo di Google Cloud, paghi solo per i servizi che utilizzi. Per ricevere un preventivo personalizzato per la tua organizzazione, contatta il nostro team di vendita.
Contatta il team di vendita