Een data lake bouwen op het Google Cloud Platform

Bewaar, verwerk en analyseer enorme hoeveelheden gegevens op een rendabele en flexibele manier.

Overzicht van data lakes in de cloud

Eén plek om al uw gegevens vast te leggen en te gebruiken

Plaats uw gegevens onbewerkt in het Google Cloud Platform, gestructureerd of ongestructureerd, en sla deze gescheiden van resources voor rekenwerk op om dure opslagmodellen op locatie te vermijden. U hoeft uw gegevens niet meer voor te verwerken en telkens opnieuw schema's te ontwerpen om nieuwe gegevenstypen te kunnen verwerken. Maak gebruik van de geavanceerde verwerkings-, analyse- en machine learning-services van Google Cloud Platform voor effectieve toepassingen in uw bedrijf. Gebruik de infrastructuur die Google zelf ook gebruikt om identiteiten, apps en apparaten te beveiligen.

Van gegevensopname tot insight

Gegevens in een data lake in GCP

Gegevens opnemen in uw data lake op GCP

Met Google Cloud Platform kunt u uw gegevens, van batch tot streaming, eenvoudig verplaatsen vanaf elke locatie in de cloud. Of u nu gegevens migreert via het bedrijfsnetwerk, een offline app voor gegevensoverdracht gebruikt, of realtime streams vastlegt, de producten en services van GCP worden zonder enige complexiteit aangepast aan uw behoeften.

Petabytes aan gegevens opslaan

Petabytes aan gegevens opslaan

Gebruik Cloud Storage als de centrale hub voor uw data lake en doe uw voordeel met de grote consistentie, het zeer duurzame ontwerp (ontworpen voor 99,9999999999% duurzaamheid) en de mogelijkheid om ongebruikte gegevens op te slaan (niet gebonden aan resources voor rekenwerk zoals bij traditionele modellen op locatie). Met de verschillende opslagklassen van Google Cloud Storage kunt u ook optimaliseren voor zowel kosten als beschikbaarheid, zodat u rendabele data lakes met petabytes aan gegevens kunt maken. Het belangrijkste is dat in Google Cloud Storage opgeslagen gegevens gemakkelijk toegankelijk zijn voor een groot aantal andere Google Cloud Platform-producten en Cloud het hart vormt voor de opslag van alle gegevensitems voor elk soort toepassing.

Gegevens verwerken

Gegevens op uw eigen manier verwerken

Omdat uw data lake zich op Cloud Storage bevindt, kunt u ervoor kiezen om gegevens te verwerken op een manier die past bij uw bedrijf. Profiteer van de in uw organisatie aanwezige ervaring met Hadoop met behulp van Cloud Dataproc (de volledig beheerde Hadoop- en Spark-service van GCP) om clusters on demand op te zetten en alleen te betalen voor de tijd die nodig is om een taak uit te voeren. Gebruik ook Cloud Dataflow (de volledig beheerde Apache Beam-service van GCP) om zowel streams als batches te verwerken in een serverloze gegevensverwerkingsomgeving zonder complexe registratie- en beheerelementen.

Serverloos datawarehouse

Serverloos datawarehouse voor analyse bovenop uw data lake

U kunt BigQuery (het serverloze datawarehouse van GCP) gebruiken om petabytes aan gestructureerde gegevens in uw data lake te analyseren. Doorzoek razendsnel enorme hoeveelheden gegevens voor zakelijke rapporten en benodigde bedrijfsinformatie. Maak gebruik van ingebouwde machine learning-mogelijkheden met het vertrouwde SQL en stimuleer een bedrijfscultuur die is gebaseerd op gegevens.

Geavanceerde analyse met ML

Geavanceerde analyse met behulp van machine learning

Maak gebruik van uw data lake in GCP om gegevensexperimenten uit te voeren en ontwerp machine learning-modellen op basis van gegevens die zijn opgeslagen in Cloud Storage. Gebruik de native integraties met de toonaangevende Cloud AI-producten van Google voor uiteenlopende taken, van insights verkrijgen uit afbeeldingen en video's tot de personalisatie, implementatie en opschaling van uw eigen ML-modellen met Cloud Machine Learning Engine.

Lokale data lakes van Hadoop toewijzen aan het Google Cloud Platform

Building a cloud data lake on GCPYESNOIm processingstreaming dataWe useApache BeamWe useApache Spark or KafkaCloud DataflowCloud DataprocCloud DataprocIm doinginteractive dataanalysis orad-hoc queryingWe use Apache Sparkwith interactive webnotebooksAre you interested in keepingthese SQL queries as they are?Cloud Dataproc in combinationwith Jupyter or Zeppelinoptional componentsCloud DataprocNo, Im interested inlearning more abouta serverless solution.YESNONo, Im interested inlearning more abouta managed solution.BigQueryWe use SQL with Apache Hive,Apache Drill, Impala,Presto or similarCloud DataprocCloud DataprocIm doing ELT/ETLor batch processingWe use MapReduce,Spark, Pig, or HiveWe use Oozie forworkflow orchestrationCloud ComposerAre you interested inkeeping these workflowjobs as they are?Im supportingNoSQL workloadsWe useApache AccumuloCloud DataprocYESNONeed to use coprocessorsor SQL with Apache Phoenix?Cloud DataprocCloud BigtableWe useApache HBaseIm running anApache Hadoopclusteron-premises

Bronnen

Architecturen voor data lakes op het Google Cloud Platform

Data lakes maken en vullen (Cloud Next '18)

10 tips voor het maken van langdurige clusters met Cloud Dataproc

Een datawarehouse voor marketing ontwerpen

Lokale Hadoop-infrastructuur migreren naar het Google Cloud Platform