Prijzen voor Dataflow

Op deze pagina vindt u informatie over de prijzen voor Dataflow. De prijzen voor andere producten vindt u in de prijsdocumentatie.

Prijsoverzicht

Hoewel het tarief op basis van uren wordt bepaald, wordt het gebruik van de Dataflow-service per seconde en per taak gefactureerd. Het gebruik wordt in uren uitgedrukt (30 minuten is bijvoorbeeld 0,5 uur) om het uurtarief op het gebruik per seconde toe te passen. Werkrollen en taken gebruiken mogelijk resources, zoals hieronder beschreven.

Werkrollen en werkrolresources

Elke Dataflow-taak gebruikt minimaal 1 Dataflow-werkrol. De Dataflow-service biedt 2 typen werkrollen: batch- en streamingwerkrollen. Er zijn aparte servicekosten voor batch- en streamingwerkrollen.

Dataflow-werkrollen gebruiken de volgende resources, die elk per seconde worden gefactureerd:

Batch- en streamingwerkrollen zijn gespecialiseerde resources die gebruikmaken van Compute Engine. Een Dataflow-taak zal toch geen Compute Engine-facturering genereren voor Compute Engine-resources die worden beheerd door de Dataflow-service. In plaats daarvan is het gebruik van deze Compute Engine-resources opgenomen in de kosten voor de Dataflow-service.

U kunt het standaardaantal werkrollen voor een taak overschrijven. Als u automatisch schalen gebruikt, specificeert u het maximale aantal werkrollen dat aan een taak kan worden toegewezen. Werkrollen en bijbehorende resources worden automatisch toegevoegd en verwijderd als automatische schaling ingeschakeld is.

Daarnaast kunt u pipeline-opties gebruiken om de standaardinstellingen voor resources (machinetype, schijftype en schijfgrootte) die aan elke werkrol zijn toegewezen, te overschrijven.

Dataflow-services

De Dataflow Shuffle-bewerking partitioneert en groepeert gegevens per sleutel op een schaalbare, efficiënte en fouttolerante manier. Dataflow maakt standaard gebruik van een shuffle-implementatie die volledig op virtuele machines van werkrollen wordt uitgevoerd en die de CPU-, geheugen- en Persistent Disk-opslag van werkrollen gebruikt.

Dataflow biedt ook een optionele zeer schaalbare functie, Dataflow Shuffle, die alleen beschikbaar is voor batchpipelines en die gegevens buiten de werkrollen shuffelt. Shuffle brengt kosten in rekening op basis van de hoeveelheid verwerkte gegevens. U kunt Dataflow opdracht geven om Shuffle te gebruiken door de Shuffle-pipelineparameter op te geven.

De Dataflow Streaming Engine werkt vergelijkbaar met Shuffle en verplaatst shuffle- en statusverwerking voor streaming vanuit de werkrol-VM's naar de servicebackend van Dataflow. U kunt Dataflow opdracht geven om de Streaming Engine te gebruiken voor uw streamingpipelines door de Streaming Engine-pipelineparameter op te geven. Streaming Engine-gebruik wordt gefactureerd op basis van de hoeveelheid verwerkte streaminggegevens. Dat is afhankelijk van de hoeveelheid gegevens die door de streamingpipeline is verwerkt, evenals het aantal en de complexiteit van de pipelinefasen. Voorbeelden van wat meetelt als een verwerkte byte zijn invoerstromen uit gegevensbronnen, gegevensstromen van de ene naar de andere samengevoegde pipelinefase, gegevensstromen die worden bewaard in een door de gebruiker gedefinieerde status of die voor vensterfuncties worden gebruikt, en uitvoerberichten naar logboeklocaties voor gegevens, zoals Pub/Sub of BigQuery.

Dataflow biedt voor batchverwerking ook een optie met korting op prijzen voor CPU's en geheugen. Flexible Resource Scheduling (FlexRS) combineert normale en verwijderbare VM's in één Dataflow-werkrollengroep, waardoor gebruikers toegang hebben tot goedkopere verwerkingsresources. FlexRS vertraagt ook de uitvoering van een Dataflow-batchtaak maximaal 6 uur om het beste tijdstip te bepalen om de taak te starten op basis van beschikbare resources. Hoewel Dataflow een combinatie van werkrollen gebruikt om een FlexRS-taak uit te voeren, krijgt u onafhankelijk van het type werkrol een uniforme korting op normale Dataflow-prijzen. U geeft Dataflow opdracht om FlexRS te gebruiken voor uw automatisch geschaalde batchpipelines door de FlexRS-parameter op te geven.

Aanvullende taakresources

Naast het gebruik van werkrollen kan een taak onder andere de volgende resources gebruiken, die worden gefactureerd volgens de bijbehorende prijzen:

Informatie over prijzen

Voor toekomstige releases van Dataflow kunnen andere servicekosten gelden en/of kan de bundeling van gerelateerde services anders zijn.

Bekijk de pagina Regio's en zones van Compute Engine voor meer informatie over de beschikbare regio's en de bijbehorende zones.

1 Standaardwaarden voor batchwerkrollen: 1 vCPU, 3,75 GB geheugen, 250 GB persistente schijfruimte

2 Standaardwaarden voor FlexRS-werkrollen: 2 vCPU's, 7,5 GB geheugen, 25 GB persistente schijfruimte per werkrol, met een minimum van twee werkrollen

3 Standaardwaarden voor streamingwerkrollen: 4 vCPU's, 15 GB geheugen, 420 GB persistente schijfruimte

4 Dataflow Shuffle is momenteel beschikbaar voor batchpipelines in de volgende regio's:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Noord-Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londen)
  • europe-west1 (België)
  • europe-west4 (Nederland)
  • europe-west3 (Frankfurt)
  • asia-southeast1 (Singapore)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sydney)

In de toekomst wordt de service ook in andere regio's beschikbaar gesteld.

De prijzen voor Dataflow Shuffle zijn gebaseerd op volumecorrecties die zijn toegepast op de hoeveelheid verwerkte gegevens tijdens lees- en schrijfbewerkingen bij de reorganisatie van uw dataset. Zie Prijsinformatie voor Dataflow Shuffle voor meer informatie.

5 Voor Dataflow Streaming Engine gelden de verwerkte streaminggegevens als prijseenheid. Streaming Engine is momenteel beschikbaar in de volgende regio's:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Noord-Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (Londen)
  • europe-west1 (België)
  • europe-west4 (Nederland)
  • europe-west3 (Frankfurt)
  • asia-southeast1 (Singapore)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sydney)
In de toekomst wordt de service ook in andere regio's beschikbaar gesteld.

Prijsinformatie voor Dataflow Shuffle

De kosten worden per Dataflow-taak berekend met behulp van volumecorrecties die worden toegepast op de totale hoeveelheid verwerkte gegevens tijdens Dataflow Shuffle-bewerkingen. Uw daadwerkelijke factuur voor de verwerkte Dataflow Shuffle-gegevens is gelijk aan de volledige prijs voor een kleinere hoeveelheid gegevens dan de hoeveelheid die is verwerkt door een Dataflow-taak. Daarom is de waarde voor de factureerbare Dataflow Shuffle-gegevens lager dan de waarde voor de totale Dataflow Shuffle-gegevens.

In de volgende tabel wordt uitgelegd hoe deze correcties worden toegepast:

Door een taak verwerkte gegevens Factuurcorrectie
Eerste 250 GB 75% minder
Volgende 4870 GB 50% minder
Meer dan 5120 GB (5 TB) geen

Als uw pipeline bijvoorbeeld resulteert in 1024 GB (1 TB) verwerkte Dataflow Shuffle-gegevens, wordt het factureerbare bedrag als volgt berekend: 250 GB * 25% + 774 GB * 50% = 449,5 GB * het regionale tarief voor Dataflow Shuffle-gegevensverwerking. Als uw pipeline resulteert in 10240 GB (10 TB) verwerkte Dataflow Shuffle-gegevens, is het factureerbare bedrag 250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617,5 GB.

Gebruik bekijken

Via de Google Cloud Console of de gcloud-opdrachtregeltool kunt u alle resources voor vCPU, geheugen en Persistent Disk bekijken die aan een taak gekoppeld zijn. U kunt zowel de werkelijke als de factureerbare verwerkte Shuffle- en Streaming-gegevensstatistieken volgen in de controle-interface van Dataflow. U kunt de werkelijk verwerkte Shuffle-gegevens gebruiken om de prestaties van uw pipeline te evalueren en u kunt de factureerbare verwerkte Shuffle-gegevens gebruiken om de kosten van de Dataflow-taak te bepalen. Voor verwerkte Streaming-gegevens zijn de statistieken voor werkelijk verbruikte en factureerbare gegevens gelijk.

Prijscalculator

Gebruik de Prijscalculator voor Google Cloud voor inzicht in de berekening van de kosten op uw factuur.