Cloud Dataflow

Eenvoudigere verwerking van stream- en batchgegevens, maar net zo betrouwbaar en expressief

Kosteloos uitproberen

Snellere ontwikkeling, eenvoudiger beheer

Cloud Dataflow is een volledig beheerde service voor de transformatie en verrijking van gegevens in (realtime) stream- en (historische) batchmodi, met dezelfde betrouwbaarheid en expressiviteit. Compromissen en complexe alternatieve oplossingen behoren tot het verleden. Dankzij de serverloze aanpak van resourcelevering en -beheer kent de capaciteit bijna geen grenzen. U kunt uw grootste uitdagingen op het gebied van gegevensverwerking aanpakken en betaalt alleen voor wat u gebruikt.

Cloud Dataflow biedt toepassingen die in allerlei branches bedrijfsprocessen transformeren, zoals in:

  • Retail: analyse van klikstromen, verkooppunten en segmentatie
  • Financiële dienstverlening: fraudedetectie
  • Gaming: gepersonaliseerde gebruikerservaring
  • Productie, gezondheidszorg en logistiek: IoT-analyse
snellere-ontwikkeling-eenvoudiger-beheer

Ontwikkel sneller voor batches en streams

Cloud Dataflow ondersteunt snelle, eenvoudige pipeline-ontwikkeling via expressieve SQL-, Java- en Python-API's in de Apache Beam SDK. Deze SDK biedt uitgebreide analysemogelijkheden voor vensters en sessies en een ecosysteem van connectors voor bronnen en logboeklocaties. Met het unieke en uniforme ontwikkelingsmodel van Beam kunt u meer code hergebruiken in stream- en batchpipelines.

Als u een melding wilt ontvangen wanneer de alfaversie van Dataflow SQL beschikbaar is, vult u dit formulier in. We nemen contact met u op om u te laten weten wanneer u de alfaversie kunt gebruiken.

sneller-ontwikkelen-zonder-compromissen

Operations en beheer vereenvoudigen

De serverloze GCP-aanpak vermindert de operationele lasten omdat prestaties, schaling, beschikbaarheid, beveiliging en naleving automatisch worden afgehandeld. Gebruikers kunnen zich richten op programmeren in plaats van op het beheren van severclusters. Dankzij de integratie met Stackdriver, de gecombineerde GCP-oplossing voor registratie en controle, kunt u in realtime uw pipelines monitoren en problemen oplossen. Uitgebreide visualisatie, logboekregistratie en geavanceerde waarschuwingsmogelijkheden helpen u potentiële problemen op te sporen en te verhelpen.

maakt-bedrijfsvoering-en-beheer-eenvoudiger

Bouwen op een basis voor machine learning

Gebruik Cloud Dataflow als een handig integratiepunt om voorspellende analyse toe te passen op fraudedetectie, realtime personalisering en vergelijkbare toepassingen. Hiervoor voegt u op TensorFlow gebaseerde Cloud Machine Learning-modellen en -API's toe aan uw pipelines voor gegevensverwerking.

ontwerp-verder-op-een-basis-voor-machine-learning

Uw favoriete en vertrouwde tools gebruiken

Cloud Dataflow is naadloos met GCP-services geïntegreerd voor de verwerking van streaminggebeurtenissen (Cloud Pub/Sub), datawarehousing (BigQuery), machine learning (Cloud Machine Learning) en meer. De op Beam gebaseerde SDK stelt ontwikkelaars ook in staat om custom extensies te ontwerpen en zelfs alternatieve engines voor uitvoering te kiezen, zoals Apache Spark via Cloud Dataproc of op locatie. Voor gebruikers van Apache Kafka is integratie met GCP eenvoudig dankzij de Cloud Dataflow-connector.

gebruik-uw-favoriete-en-vertrouwde-tools

Gegevenstransformatie met Cloud Dataflow

diagram-dataflow

KENMERKEN VAN CLOUD DATAFLOW

Geautomatiseerd resourcebeheer
Cloud Dataflow zorgt voor geautomatiseerde levering en geautomatiseerd beheer van verwerkingsresources om de wachttijd te minimaliseren en het gebruik te maximaliseren. U hoeft instanties niet meer te reserveren of handmatig op te starten.
Dynamische herbalancering van werk
Geautomatiseerde en geoptimaliseerde partitionering van werk, waardoor de balans bij vertraagd werk wordt hersteld. U hoeft niet langer 'intensief gebruikte sleutels' op te sporen of uw invoerdata vooraf te bewerken.
Betrouwbaar en consistent bij Exactly Once-verwerking
Ingebouwde support voor consistente en correcte fouttolerante uitvoering, ongeacht de omvang van de gegevens, de grootte van het cluster, het verwerkingspatroon of de complexiteit van de pipeline.
Automatisch horizontaal schalen
Automatisch horizontaal schalen van werkrolresources voor optimale verwerkingssnelheid zorgt voor een betere totale prijs-prestatieverhouding.
Geïntegreerd programmeermodel
De Apache Beam-SDK biedt even uitgebreide MapReduce-achtige bewerkingen, krachtige gegevensvensterfuncties en gedetailleerde correctiecontrole voor zowel streaming- als batchgegevens.
Door de community aangedreven innovatie
Ontwikkelaars die het programmeermodel van Cloud Dataflow verder willen uitbreiden, kunnen afsplitsen van of bijdragen aan Apache Beam.
Flexibele prijzen voor resourceplanning voor batchverwerking
Flexibele resourceplanning biedt een lagere prijs voor batchverwerking zodat u uw taken op een flexibele manier kunt verwerken door ze te plannen op praktische momenten, zoals 's nachts. Deze flexibele taken worden in een wachtrij geplaatst met de garantie dat ze binnen zes uur worden opgehaald en uitgevoerd.

Cloud Dataflow of Cloud Dataproc: wat is de beste keuze?

Cloud Dataproc en Cloud Dataflow kunnen beide worden gebruikt voor gegevensverwerking en er is overlap in hun batch- en streamingmogelijkheden. Hoe bepaalt u welk product het best bij uw omgeving past?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc is erg geschikt voor omgevingen die afhankelijk zijn van specifieke componenten van het big data-ecosysteem van Apache:

  • Tools/pakketten
  • Pipelines
  • Vaardigheden van huidig personeel

Cloud Dataflow

Cloud Dataflow is meestal de betere optie voor greenfield-omgevingen:

  • Minder operationele overheadkosten
  • Geïntegreerde ontwikkelaanpak voor batch- en streamingpipelines
  • Gebruikt Apache Beam
  • Ondersteunt de overdraagbaarheid van pipelines tussen de runtime-omgevingen Cloud Dataflow, Apache Spark en Apache Flink

Aanbevolen productietaken

PRODUCTIETAKEN CLOUD DATAPROC CLOUD DATAFLOW
Stream processing (ETL)
Batchverwerking (ETL)
Iteratieve verwerking en notebooks
Machine learning met Spark ML
Voorbewerking voor machine learning (met Cloud ML Engine)

Partnerschappen en integraties

Google Cloud Platform-partners en externe ontwikkelaars hebben integraties met Dataflow ontwikkeld om snel en gemakkelijk krachtige taken voor gegevensverwerking van elk formaat mogelijk te maken.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"Door onze pipelines op Cloud Dataflow uit te voeren, kunnen we ons focussen op het programmeren zonder dat we ons zorgen hoeven te maken over de implementatie en het beheer van instanties die onze code gebruiken (een algemeen kenmerk van GCP)."

- Jibran Saithi Lead Architect, Qubit

Gebruikersvriendelijke prijzen

Kosten voor Cloud Dataflow-taken worden per seconde gefactureerd, gebaseerd op het daadwerkelijke gebruik van batch- of streamingwerkrollen van Cloud Dataflow. Taken die aanvullende GCP-resources gebruiken, zoals Cloud Storage of Cloud Pub/Sub, worden gefactureerd op basis van de prijzen voor die services.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Noord-Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) België (europe-west1) Finland (europe-north1) Frankfurt (europe-west3) Londen (europe-west2) Nederland (europe-west4) Zürich (europe-west6) Mumbai (asia-south1) Singapore (asia-southeast1) Sydney (australia-southeast1) Hongkong (asia-east2) Taiwan (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Cloud Dataflow-werkroltype vCPU
$/uur
Geheugen
$ GB/uur
Opslag: persistente standaardschijf
$ GB/uur
Opslag: persistente SSD-schijf
$ GB/uur
Verwerkte gegevens4,5
$ GB6
Batch 1
FlexRS 2
Streaming 3
Als u in een andere valuta dan USD betaalt, gelden de prijzen die in uw valuta op Cloud Platform SKU's worden getoond.

1 Standaarden voor batchwerkrollen: 1 vCPU, 3,75 GB geheugen, 250 GB persistente schijf

2 Standaarden voor FlexRS-werkrollen: 2 vCPU, 7,50 GB geheugen, 25 GB persistente schijf per werkrol, met een minimum van twee werkrollen

3 Standaarden voor streamingwerkrollen: 4 vCPU, 15 GB geheugen, 420 GB persistente schijf

4 Cloud Dataflow Shuffle is momenteel beschikbaar voor batchpipelines in de volgende regio's:

  • us-central1 (Iowa)
  • europe-west1 (België)
  • europe-west4 (Nederland)
  • asia-northeast1 (Tokio)

In de toekomst wordt de service ook in andere regio's beschikbaar gesteld.

5 Voor Cloud Dataflow Streaming Engine gelden de verwerkte streaminggegevens als prijseenheid. Streaming Engine is momenteel beschikbaar in de volgende regio's:

  • us-central1 (Iowa)
  • europe-west1 (België)
  • asia-northeast1 (Tokio)
  • europe-west4 (Nederland)
In de toekomst wordt de service ook in andere regio's beschikbaar gesteld.

6 Zie Prijzen van Cloud Dataflow voor meer informatie over gegevensverwerking.

Cloud AI-producten voldoen aan het SLA-beleid, dat hier te vinden is. De hierin genoemde garanties voor wachttijden of beschikbaarheid kunnen afwijken van de garanties voor andere Google Cloud-services.

Feedback verzenden over...