Data Lake auf der Google Cloud Platform erstellen

Speichern, verarbeiten und analysieren Sie enorme Datenmengen kostengünstig und flexibel.

Übersicht über cloudbasierte Data Lakes

Ein Ort, an dem Sie Ihre gesamten Daten erfassen und bereitstellen

Importieren Sie Ihre Daten in die Google Cloud Platform im Rohzustand, egal ob strukturiert oder unstrukturiert, und speichern Sie diese getrennt von Rechnerressourcen, um kostenintensive lokale Speichermodelle zu vermeiden. Machen Sie sich keine Gedanken mehr um die Datenvorverarbeitung und die ständige Neuentwicklung von Schemas zur Handhabung neuer Datentypen. Profitieren Sie von den hochmodernen Diensten der Google Cloud Platform für die Datenverarbeitung, die Analyse und das maschinelle Lernen, um wirkungsvolle Anwendungsfälle innerhalb Ihres Unternehmens umzusetzen. Nutzen Sie die gleiche, auf Sicherheit ausgelegte Infrastruktur, die Google selbst verwendet, um Ihre Identitäten, Anwendungen und Geräte zu schützen.

Von der Datenaufnahme zur Erkenntnis

Daten in einem GCP Data Lake

Daten in Ihren GCP Data Lake importieren

Mit der Google Cloud Platform können Sie Ihre Daten ganz einfach von jedem Speicherort aus in die Cloud verschieben, egal ob Sie diese per Batch verarbeiten oder streamen. Die GCP-Produkte und -Dienste passen sich reibungslos Ihren Anforderungen an, egal ob Sie Daten über Ihr Netzwerk oder offline mit Transfer Appliance migrieren oder Echtzeitstreams aufzeichnen.

Daten im Petabytebereich speichern

Daten im Petabytebereich speichern

Verwenden Sie Cloud Storage als zentrale Drehscheibe für Ihren Data Lake und profitieren Sie von der starken Konsistenz und der hohen Verfügbarkeit (für 99,999999999 % konzipiert). Sie können auch inaktive Daten unabhängig von Rechenressourcen speichern, anders als bei herkömmlichen lokalen Modellen. Dadurch dass Google Cloud Storage mehrere Speicherklassen verwendet, können sowohl die Kosten als auch die Verfügbarkeit optimiert werden. Das ermöglicht kostengünstige Data Lakes im Petabytebereich. Vor allem aber kann auf die Daten, die in Google Cloud Storage gespeichert sind, mit einer Vielzahl von anderen Google Cloud Platform-Produkten leicht zugegriffen werden. Deshalb ist dies der ideale Speicherort für jede Art von Datenbeständen und jeden Anwendungsfall.

Daten verarbeiten

Daten nach Ihren Wünschen verarbeiten

Da Ihr Data Lake auf Cloud Storage basiert, können Sie die Daten so verarbeiten, wie es für Ihr Unternehmen am sinnvollsten ist. Vielleicht gibt es in Ihrem Unternehmen bereits vorhandene Hadoop-Kenntnisse. Nutzen Sie sie einfach weiter, indem Sie Cloud Dataproc, den vollständig verwalteten Hadoop- und Spark-Dienst der GCP, verwenden, um Cluster nach Bedarf hochzufahren. Dabei zahlen Sie nur für die Zeit, die für die Ausführung von Jobs benötigt wird. Informieren Sie sich außerdem über Cloud Dataflow, den vollständig verwalteten Apache Beam-Dienst der GCP. Mit diesem Dienst können Sie sowohl Stream- als auch Batch-Arbeitslasten serverlos verarbeiten, was Bereitstellung und Verwaltung deutlich vereinfacht.

Serverloses Data Warehouse

Serverloses Data Warehouse für Analysen zusätzlich zu Ihrem Data Lake

Mit BigQuery, dem serverlosen Data Warehouse für Daten im Petabytebereich, können Sie strukturierte Daten analysieren, die in Ihrem Data Lake gespeichert sind. Profitieren Sie von der rasanten Abfragegeschwindigkeit bei enormen Datenmengen. So können Sie Anforderungen an die Berichterstellung und Business Intelligence leichter erfüllen. Profitieren Sie von den integrierten maschinellen Lernfunktionen, auf die Sie mit bekannten SQL-Funktionen zugreifen können und fördern Sie so eine datengesteuerte Unternehmenskultur.

Erweiterte Analysen mit ML

Erweiterte Analysen durch maschinelles Lernen

Nutzen Sie Ihren Data Lake auf der GCP, um basierend auf den in Cloud Storage gespeicherten Daten Data Science-Tests durchzuführen und Modelle für das maschinelle Lernen zu erstellen. Mit der nativen Einbindung der innovativen Cloud-KI-Produkte von Google können Sie die verschiedensten Aufgaben problemlos bewältigen. Die Bandbreite reicht von der Informationsgewinnung aus Bildern und Videoinhalten bis hin zu Cloud Machine Learning Engine, womit Sie Ihre eigenen maßgeschneiderten ML-Modelle anpassen, bereitstellen und skalieren können.

Lokale Hadoop Data Lake-Workloads GCP-Produkten zuordnen

Cloudbasierten Data Lake auf der GCP erstellenJANEINIch verarbeite Streaming-DatenWir verwenden Apache BeamWir verwenden Apache Spark oder KafkaCloud DataflowCloud DataprocCloud DataprocIch führe interaktive Datenanalysen oder Ad-hoc-Abfragen durchWir verwenden Apache Spark mit interaktiven WebnotebooksMöchten Sie diese SQL-Abfragen so behalten?Cloud Dataproc in Kombination mit optionalen Jupyter- oder Zeppelin-KomponentenCloud DataprocNein, ich möchte mehr über eine serverlose Lösung erfahren.JANEINNein, ich möchte mehr über eine verwaltete Lösung erfahren.BigQueryWir verwenden SQL mit Apache Hive, Apache Drill, Impala, Presto oder ÄhnlichemCloud DataprocCloud DataprocIch führe ELT/ETL oder Batch-Verarbeitung durchWir verwenden MapReduce, Spark, Pig oder HiveWir verwenden Oozie für die Workflow-OrchestrierungCloud ComposerMöchten Sie diese Workflow-Jobs so behalten?Ich unterstütze NoSQL-ArbeitslastenWir verwenden Apache AccumuloCloud DataprocJANEINVerwenden Sie Co-Prozessoren oder SQL mit Apache Phoenix?Cloud DataprocCloud Bigtable Wir verwenden Apache HBaseIch führe einen Apache Hadoop-Cluster lokal aus

Ressourcen