Dataflow

Uniforme verwerking van stream- en batchgegevens: serverloos, snel en voordelig.

Dataflow kosteloos uitproberen
  • action/check_circle_24px Gemaakt met Sketch.

    Volledig beheerde service voor gegevensverwerking

  • action/check_circle_24px Gemaakt met Sketch.

    Geautomatiseerde levering en geautomatiseerd beheer van verwerkingsresources

  • action/check_circle_24px Gemaakt met Sketch.

    Automatisch horizontaal schalen van werkrolresources om het resourcegebruik te optimaliseren

  • action/check_circle_24px Gemaakt met Sketch.

    Innovatie vanuit de OSS-community met Apache Beam SDK

  • action/check_circle_24px Gemaakt met Sketch.

    Betrouwbare en consistente exactly once-verwerking

Snel gegevensanalyses streamen

Dataflow maakt een snelle, vereenvoudigde ontwikkeling van pipelines voor streaminggegevens met kortere gegevenswachttijden mogelijk.

Bedrijfsvoering en beheer vereenvoudigen

Teams kunnen zich richten op het programmeren in plaats van het beheer van serverclusters, omdat productietaken voor data-engineering dankzij de serverloze aanpak van Dataflow worden uitgevoerd zonder operationele overhead.

Lagere totale eigendomskosten

Dankzij automatische schaling in combinatie met kosteneffectieve batchverwerking kan Dataflow vrijwel onbeperkte capaciteit bieden voor uw seizoensafhankelijke en onregelmatige productietaken, zonder dat u te veel uitgeeft.

Belangrijkste functies

Geautomatiseerd resourcebeheer en dynamische herbalancering van werk

Dataflow zorgt voor geautomatiseerde levering en geautomatiseerd beheer van verwerkingsresources om de wachttijd te minimaliseren en het gebruik te maximaliseren, zodat u instanties niet meer handmatig hoeft op te starten of te reserveren. Ook de partitionering van werk is geautomatiseerd en geoptimaliseerd, waardoor de balans bij vertraagd werk wordt hersteld. U hoeft niet langer 'hotkeys' op te sporen of uw invoerdata vooraf te bewerken.

Automatisch horizontaal schalen

Automatische horizontale schaling van werkrolresources voor een optimale verwerkingssnelheid zorgt voor een betere totale prijs-prestatieverhouding.

Flexibele prijzen voor resourceplanning voor batchverwerking

Flexibele resourceplanning (FlexRS) biedt een lagere prijs voor batchverwerking. U kunt uw taken op een flexibele manier verwerken door ze te plannen op praktische momenten, zoals 's nachts. Deze flexibele taken worden in een wachtrij geplaatst met de garantie dat ze binnen zes uur worden opgehaald en uitgevoerd.

Alle functies weergeven

Klanten

Dow Jones
Dow Jones brengt datasets van belangrijke historische gebeurtenissen tot leven met Dataflow.
Het verhaal lezen

Kernpunten uit het verhaal

  • Ruim dertig jaar aan nieuwsgegevens inzichtelijk gemaakt om de zakelijke impact te beoordelen

  • Verborgen relaties blootgelegd en nieuwe inzichten verkregen

  • Met gemak binnen tien weken een Kenniskaart-prototype gemaakt

Partner

Documentatie

QuickStart
Snelstartgids voor Dataflow met Python

Lees hoe u uw Google Cloud-project en Python-ontwikkelomgeving kunt instellen, de Apache Beam SDK kunt downloaden en het WordCount-voorbeeld in de Dataflow-service kunt uitvoeren en wijzigen.

Tutorial
Dataflow SQL gebruiken

Maak een SQL-query en implementeer een Dataflow-taak om uw SQL-query uit te voeren vanuit de UI van Dataflow SQL.

Tutorial
De Apache Beam SDK installeren

Installeer de Apache Beam SDK zodat u uw pipelines kunt uitvoeren in de Dataflow-service.

Tutorial
Machine learning met Apache Beam en TensorFlow

Met Apache Beam, Dataflow en TensorFlow kunt u een machinelearning-model voor moleculaire energie vooraf verwerken, trainen en er voorspellingen mee doen.

Tutorial
Qwiklab: basisprincipes van big data en ML in Google Cloud

Deze on-demand cursus van één week is een inleiding tot de mogelijkheden voor gegevensanalyse en machine learning van Google Cloud, met onder meer informatie over hoe u pipelines maakt met Dataflow.

De basisbeginselen van Google Cloud
Dataflow-hulpbronnen

Bekijk informatie over prijzen, quota voor resources, veelgestelde vragen en meer.

Tutorial
Ontdek wat u kunt ontwerpen in Google Cloud

Bekijk technische Google Cloud-handleidingen met betrekking tot Dataflow.

Toepassingen

Toepassing
Streamanalyse

Met streamanalyse van Google Cloud kunt u gegevens vanaf het begin ordenen en ze meteen bruikbaar en toegankelijk maken. Onze streamingoplossing is gebaseerd op de infrastructuur voor automatische schaling van Pub/Sub, Dataflow en BigQuery en levert precies de juiste resources om wisselende volumes aan actuele gegevens te verwerken en te analyseren voor realtime zakelijke inzichten. Deze vereenvoudigde levering vermindert de complexiteit en maakt streamanalyse toegankelijk voor zowel data-analisten als data-engineers.

Diagram voor streamanalyse met Dataflow
Toepassing
Realtime AI

Dataflow stelt streaminggebeurtenissen beschikbaar voor AI Platform van Google Cloud en TensorFlow Extended (TFX) om voorspellende analyses, fraudedetectie, realtime personalisatie en andere geavanceerde analysetoepassingen mogelijk te maken. TFX gebruikt Dataflow en Apache Beam als de engine voor gedistribueerde gegevensverwerking om diverse aspecten van de ML-levenscyclus te realiseren, ondersteund door CI/CD voor ML via Kubeflow Pipelines.

Toepassing
Verwerking van sensor- en logboekgegevens

Krijg met een intelligent IoT-platform inzichten over uw bedrijf vanuit uw wereldwijde netwerk van apparaten.

Alle functies

Streaming Engine Streaming Engine maakt onderscheid tussen rekenwerk en statusopslag, en verplaatst de pipeline-uitvoering gedeeltelijk vanuit de werkrol-VM's naar de servicebackend van Dataflow. Dit zorgt voor een aanzienlijk betere automatische schaling en kortere gegevenswachttijden.
Automatische schaling Automatische schaling is een functie van de Dataflow-service om automatisch het aantal werkrolinstanties te kiezen dat nodig is om uw taak uit te voeren. De Dataflow-service kan ook tijdens runtime dynamisch meer of minder werkrollen toewijzen op basis van de kenmerken van uw taak.
Dataflow Shuffle Het servicegebaseerde Dataflow Shuffle verplaatst de reorganisatie die wordt gebruikt voor het groeperen en samenvoegen van gegevens, vanuit de werkrol-VM's naar de servicebackend van Dataflow voor batchpipelines. Batchpipelines schalen naadloos tot honderden terabytes, zonder dat u daarvoor iets hoeft in te stellen.
Dataflow SQL Met Dataflow SQL kunt u uw SQL-vaardigheden gebruiken om direct in de web-UI van BigQuery Dataflow-streamingpipelines te ontwikkelen. U kunt streaminggegevens van Pub/Sub samenvoegen met bestanden in Cloud Storage of tabellen in BigQuery, resultaten schrijven naar BigQuery en realtime dashboards ontwikkelen met Google Spreadsheets of andere BI-tools.
Flexible Resource Scheduling (FlexRS) Dataflow FlexRS verlaagt de kosten van batchverwerking met behulp van geavanceerde planningstechnieken, de Dataflow Shuffle-service en een combinatie van instanties van verwijderbare virtuele machines (VM's) en reguliere VM's.
Dataflow-templates Met Dataflow-templates kunt u uw pipelines gemakkelijk delen met teamleden binnen uw organisatie en gebruikmaken van de vele templates van Google om eenvoudige, maar nuttige taken voor gegevensverwerking te implementeren. Met Flex Templates kunt u van elke Dataflow-pipeline een template maken.
Notebooks-integratie Ontwerp pipelines stapsgewijs helemaal opnieuw met AI Platform Notebooks en implementeer deze met de Dataflow-uitvoerder. Schrijf Apache Beam-pipelines stap voor stap door pipelinediagrammen te inspecteren in een REPL-workflow (read-eval-print-loop). Notebooks is beschikbaar via AI Platform van Google en vormt een intuïtieve omgeving met de nieuwste frameworks voor datawetenschappen en machine learning voor het schrijven van pipelines.
Inline controle Met de inline controle van Dataflow heeft u direct toegang tot taakstatistieken, zodat u problemen met batch- en streamingpipelines beter kunt oplossen. U heeft toegang tot controlediagrammen op stap- en werkrolniveau, en kunt waarschuwingen instellen voor bijvoorbeeld oude gegevens en hoge systeemwachttijden.
Door de klant beheerde versleutelingssleutels U kunt een batch- of streamingpipeline maken die is beschermd met een door de klant beheerde versleutelingssleutel (CMEK) of toegang krijgen tot gegevens die met CMEK zijn versleuteld in bronnen en logboeklocaties.
VPC Service Controls voor Dataflow De integratie van Dataflow met VPC Service Controls biedt extra beveiliging voor uw gegevensverwerkingsomgeving, omdat u hiermee het risico van gegevensonderschepping kunt verkleinen.
Privé IP-adressen Door openbare IP-adressen uit te schakelen, kunt u uw infrastructuur voor gegevensverwerking beter beveiligen. Als u geen openbare IP-adressen gebruikt voor uw Dataflow-werkrollen, gebruikt u bovendien minder openbare IP-adressen van uw Google Cloud-projectquotum.

Prijzen

Kosten voor Dataflow-taken worden per seconde gefactureerd, gebaseerd op het daadwerkelijke gebruik van batch- of streamingwerkrollen van Dataflow. Aanvullende resources, zoals Cloud Storage of Pub/Sub, worden gefactureerd op basis van de prijzen voor die services.

Partners

Google Cloud-partners hebben integraties met Dataflow ontwikkeld om snel en gemakkelijk krachtige gegevensverwerking voor taken van elk formaat mogelijk te maken.