Cloud Dataflow

Eenvoudiger verwerking van stream- en batchgegevens, net zo betrouwbaar en expressief

Kosteloos uitproberen

Snellere ontwikkeling, eenvoudiger beheer

Cloud Dataflow is een volledig beheerde service voor de transformatie en verrijking van gegevens in (realtime) stream- en (historische) batchmodi, met dezelfde betrouwbaarheid en expressiviteit. Compromissen en complexe alternatieve oplossingen behoren tot de verleden tijd. Dankzij de serverloze aanpak van resourcelevering en -beheer is de capaciteit zo goed als grenzeloos. U kunt uw grootste uitdagingen op het gebied van gegevensverwerking aanpakken en betaalt alleen voor wat u gebruikt.

Cloud Dataflow biedt toepassingen die in allerlei branches bedrijfsprocessen transformeren, zoals in:

  • check Retail: analyse van klikstromen, points-of-sale en segmentatie
  • check Financiële dienstverlening: fraudedetectie
  • check Gaming: gepersonaliseerde gebruikerservaring
  • check Productie, gezondheidszorg en logistiek: IoT-analyse
snellere-ontwikkeling-eenvoudiger-beheer

Sneller ontwikkelen voor batches en streams

Cloud Dataflow ondersteunt snelle en eenvoudige pipeline-ontwikkeling via expressieve Java- en Python-API's in de Apache Beam-SDK. Deze biedt uitgebreide analysemogelijkheden voor vensters en sessies en een ecosysteem van connectoren voor bronnen en logboeklocaties. Met het unieke en uniforme ontwikkelingsmodel van Beam kunt u meer code hergebruiken in stream- en batchpipelines.

sneller-ontwikkelen-zonder-compromissen

Maak bedrijfsvoering en beheer eenvoudiger

De serverloze GCP-aanpak vermindert de operationele lasten omdat prestaties, schaling, beschikbaarheid, beveiliging en naleving automatisch worden afgehandeld. Gebruikers kunnen zich richten op programmeren in plaats van op het beheren van severclusters. Dankzij de integratie met Stackdriver, de gecombineerde GCP-oplossing voor registratie en controle, kunt u in realtime uw pipelines monitoren en problemen oplossen. Uitgebreide visualisatie, logboekregistratie en geavanceerde waarschuwingsmogelijkheden helpen u potentiële problemen opsporen en verhelpen.

maakt-bedrijfsvoering-en-beheer-eenvoudiger

Ontwerp verder op een basis voor machine learning

Gebruik Cloud Dataflow als een handig integratiepunt om voorspellende analyse toe te passen op fraudedetectie, realtime personalisering en vergelijkbare toepassingen. Hiervoor voegt u op TensorFLow gebaseerde Cloud Machine Learning-modellen en -API's toe aan uw pipelines voor gegevensverwerking.

build-op-een-fundering-voor-machine-learning

Gebruik uw favoriete en vertrouwde tools

Cloud Dataflow integreert naadloos met GCP-services voor de verwerking van streaminggebeurtenissen (Cloud Pub/Sub), datawarehousing (BigQuery), machine learning (Cloud Machine Learning) en meer. De op Beam gebaseerde SDK stelt ontwikkelaars ook in staat om aangepaste extensies te ontwerpen en zelfs om alternatieve engines voor uitvoering te kiezen, zoals Apache Spark via Cloud Dataproc of op locatie. Voor gebruikers van Apache Kafka is integratie met GCP eenvoudig dankzij de Cloud Dataflow-connector.

gebruik-uw-favoriete-en-vertrouwde-tools

Gegevenstransformatie met Cloud Dataflow

diagram-dataflow

FUNCTIES VAN CLOUD DATAFLOW

Geautomatiseerd resourcebeheer
Cloud Dataflow zorgt voor geautomatiseerde levering en geautomatiseerd beheer van verwerkingsresources. U hoeft instanties niet meer te reserveren of handmatig op te starten.
Dynamische herbalancering van werk
Geautomatiseerde en geoptimaliseerde partitionering van werk, waardoor de balans bij vertraagd werk wordt hersteld. U hoeft niet langer 'intensief gebruikte sleutels' op te sporen of uw invoerdata voor te bewerken.
Betrouwbaar en consistent bij Exactly Once-verwerking
Ingebouwde ondersteuning voor consistente en correcte fouttolerante uitvoering, onafhankelijk van de omvang van de gegevens, de grootte van het cluster, het verwerkingspatroon of de complexiteit van de pipeline.
Automatisch horizontaal schalen
Automatisch horizontaal schalen van werkerresources voor optimale verwerkingssnelheid zorgt voor een betere totale prijs-prestatieverhouding.
Geïntegreerd programmeermodel
De Apache Beam-SDK biedt even uitgebreide MapReduce-achtige bewerkingen, krachtige gegevensvensterfuncties en gedetailleerde correctiecontrole voor zowel streaming- als batchgegevens.
Door de community aangedreven innovatie
Ontwikkelaars die het programmeermodel van Cloud Dataflow verder willen uitbreiden, kunnen afsplitsen van of bijdragen aan Apache Beam.

Cloud Dataflow vs. Cloud Dataproc: welke moet u gebruiken?

Cloud Dataproc en Cloud Dataflow kunnen beide worden gebruikt voor het verwerken van gegevens en er is overlap in hun batch- en streamingmogelijkheden. Hoe bepaalt u welk product het best bij uw omgeving past?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc is erg geschikt voor omgevingen die afhankelijk zijn van specifieke componenten van het big data-ecosysteem van Apache:

  • check Tools/pakketten
  • check Pipelines
  • check Vaardigheden van bestaande resources

Cloud Dataflow

Cloud Dataflow is meestal de betere optie voor greenfield-omgevingen:

  • check Minder operationele bijkomende kosten
  • check Geïntegreerde ontwikkelaanpak voor batch- en streamingpipelines
  • check Gebruikt Apache Beam
  • check Ondersteunt de overdraagbaarheid van pipelines tussen de runtime-omgevingen Cloud Dataflow, Apache Spark en Apache Flink

Aanbevolen productietaken

PRODUCTIETAKEN CLOUD DATAPROC CLOUD DATAFLOW
Stream processing (ETL) check
Batchverwerking (ETL) check check
Iteratieve verwerking en notebooks check
Machine learning met Spark ML check
Voorbewerking voor machine learning check (met Cloud ML Engine)

Partnerschappen en integraties

Google Cloud Platform-partners en externe ontwikkelaars hebben integraties met Dataflow ontwikkeld om snel en gemakkelijk krachtige taken voor gegevensverwerking van elk formaat mogelijk te maken.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Door onze pipelines op Cloud Dataflow uit te voeren, kunnen we focussen op programmeren zonder dat we ons zorgen hoeven te maken over de implementatie en het beheer van instanties die onze code gebruiken (een algemeen kenmerk van GCP)."

- Jibran Saithi Lead Architect, Qubit

Gebruikersvriendelijke prijzen

Kosten voor Cloud Dataflow-taken worden per seconde gefactureerd, gebaseerd op het daadwerkelijke gebruik van batch- of streamingwerkers van Cloud Dataflow. Taken die aanvullende GCP-resources gebruiken, zoals Cloud Storage of Cloud Pub/Sub, worden gefactureerd op basis van de prijzen voor die services.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Noordelijk Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) België (europe-west1) Finland (europe-north1) Frankfurt (europe-west3) Londen (europe-west2) Nederland (europe-west4) Mumbai (asia-south1) Singapore (asia-southeast1) Sydney (australia-southeast1) Taiwan (asia-east1) Tokio (asia-northeast1)
Cloud Dataflow-werkertype vCPU
$/uur
Geheugen
$ GB/uur
Opslag: persistente standaardschijf
$ GB/uur
Opslag: persistente SSD-schijf
$ GB/uur
Verwerkte gegevens3,4
$ GB5
Batch 1
Streaming 2
Als u in een andere valuta dan USD betaalt, gelden de prijzen die in uw valuta op Cloud Platform SKU's worden getoond.

1 Standaarden voor batchwerkers: 1 vCPU, 3,75 GB geheugen, 250 GB persistente schijf

2 Standaarden voor streamingwerkers: 4 vCPU, 15 GB geheugen, 420 GB persistente schijf

3 Cloud Dataflow Shuffle is momenteel alleen beschikbaar voor batchpipelines in de regio's us-central1 (Iowa) en europe-west1 (België). In de toekomst wordt Dataflow Shuffle ook in andere regio's beschikbaar gesteld.

4 Voor Cloud Dataflow Streaming Engine gelden de verwerkte streaminggegevens als prijseenheid. Streaming Engine is momenteel alleen in bèta beschikbaar voor streamingpipelines in de regio's us-central1 (Iowa) en europe-west1 (Belgium). In de toekomst wordt Dataflow Shuffle ook in andere regio's beschikbaar gesteld.

4 Bekijk Cloud Dataflow-prijzen voor meer informatie over verwerkte gegevens.

Feedback verzenden over...