Data Lake auf der Google Cloud Platform erstellen

Speichern, verarbeiten und analysieren Sie enorme Datenmengen kostengünstig und flexibel.

Übersicht über cloudbasierte Data Lakes

Ein Ort, an dem Sie Ihre gesamten Daten erfassen und bereitstellen

Importieren Sie Ihre Daten in die Google Cloud Platform im Rohzustand, egal ob strukturiert oder unstrukturiert, und speichern Sie diese getrennt von Rechnerressourcen, um kostenintensive lokale Speichermodelle zu vermeiden. Machen Sie sich keine Gedanken mehr um die Datenvorverarbeitung und die ständige Neuentwicklung von Schemata zur Handhabung neuer Datentypen. Profitieren Sie von den hochmodernen Diensten der Google Cloud Platform zur Datenverarbeitung, Analyse und zu maschinellem Lernen, um wirkungsvolle Anwendungsfälle innerhalb Ihres Unternehmens umzusetzen. Nutzen Sie die gleiche, auf Sicherheit ausgelegte Infrastruktur, die Google selbst verwendet, um Ihre Identitäten, Anwendungen und Geräte zu schützen.

Von der Datenerfassung zur Erkenntnis

Daten in einem GCP Data Lake

Daten in Ihren GCP Data Lake importieren

Mit der Google Cloud Platform können Sie Ihre Daten ganz einfach von jedem Speicherort aus in die Cloud verschieben, egal ob Sie diese per Batch verarbeiten oder streamen. Die GCP-Produkte und -Dienste passen sich ganz unkompliziert Ihren Anforderungen an, egal ob Sie Daten über Ihr Netzwerk oder offline mit einer Transfer Appliance migrieren oder Echtzeitstreams aufzeichnen.

Daten im Petabytebereich speichern

Daten im Petabytebereich speichern

Verwenden Sie Cloud Storage als zentrale Drehscheibe für Ihren Data Lake und profitieren Sie von der starken Konsistenz und der hohen Verfügbarkeit (für 99,999999999 % konzipiert) sowie der Möglichkeit, inaktive Daten zu speichern, unabhängig von Rechenressourcen wie bei herkömmlichen lokalen Modellen. Dadurch dass Google Cloud Storage mehrere Speicherklassen verwendet, können sowohl die Kosten als auch die Verfügbarkeit optimiert werden, indem Sie kostengünstige Data Lakes im Petabytebereich erstellen. Vor allem aber kann auf die Daten, die in Google Cloud Storage gespeichert sind, mit einer Vielzahl von anderen Google Cloud Platform-Produkten leicht zugegriffen werden. Deshalb ist dies der ideale Speicherort für jede Art von Datenbeständen und jeden Anwendungsfall.

Daten verarbeiten

Daten nach Ihren Wünschen verarbeiten

Da Ihr Data Lake auf Cloud Storage basiert, können Sie die Daten so verarbeiten, wie es für Ihr Unternehmen am sinnvollsten ist. Nutzen Sie die in Ihrem Unternehmen vorhandene Erfahrung mit Hadoop, indem Sie Cloud Dataproc, den vollständig verwalteten Hadoop- und Spark-Dienst der GCP, verwenden, um Cluster nach Bedarf hochzufahren und nur für die Zeit zu zahlen, die für die Ausführung von Jobs benötigt wird. Informieren Sie sich außerdem über Cloud Dataflow, den vollständig verwalteten Apache Beam-Dienst der GCP, und arbeiten Sie sowohl mit Stream- als auch mit Batch-Arbeitslasten in einer serverlosen Datenverarbeitungsumgebung, wodurch die Bereitstellung und Verwaltung deutlich vereinfacht wird.

Serverloses Data Warehouse

Serverloses Data Warehouse für Analysen zusätzlich zu Ihrem Data Lake

Mit BigQuery, dem serverlosen Data Warehouse für Daten im Petabytebereich, können Sie Analysen auf strukturierten Daten ausführen, die in Ihrem Data Lake gespeichert sind. Profitieren Sie von der rasanten Abfragegeschwindigkeit bei enormen Datenmengen. So können Sie Anforderungen an die Berichterstellung und Business Intelligence leichter erfüllen. Profitieren Sie von den integrierten maschinellen Lernfunktionen, auf die Sie mit bekannten SQL-Funktionen zugreifen können und fördern Sie so eine datengesteuerte Unternehmenskultur.

Erweiterte Analysen mit ML

Erweiterte Analysen durch maschinelles Lernen

Nutzen Sie Ihren Data Lake auf der GCP, um basierend auf den in Cloud Storage gespeicherten Daten Data Science-Tests durchzuführen und Modelle für das maschinelle Lernen zu erstellen. Nutzen Sie die native Integration der innovativen Cloud-KI-Produkte von Google, um Erkenntnisse aus Bildern und Videoinhalten abzuleiten und dadurch Ihre eigenen maßgeschneiderten ML-Modelle mit Cloud Machine Learning Engine anzupassen, bereitzustellen und zu skalieren.

Lokale Hadoop Data Lake-Workloads GCP-Produkten zuordnen

Cloudbasierten Data Lake auf der GCP erstellenJA NEIN Ich verarbeite Streaming-Daten Wir verwenden Apache Beam Wir verwenden Apache Spark oder Kafka Cloud Dataflow Cloud Dataproc Cloud Dataproc Ich führe interaktive Datenanalysen oder Ad-hoc-Anfragen durch Wir verwenden Apache Spark mit interaktiven Webnotebooks Möchten Sie diese SQL-Abfragen so behalten?Cloud Dataproc in Kombination mit Jupyter oder Zeppelin optionale Komponenten Cloud Dataproc Nein, ich möchte nicht mehr über eine serverlose Lösung erfahren.JA NEIN Nein, ich möchte nicht mehr über eine verwaltete Lösung erfahren.BigQuery Wir verwenden SQL mit Apache Hive, Apache Drill, Impala, Presto oder Ähnlichem Cloud Dataproc Cloud Dataproc Ich führe ELT/ETL oder Batch-Verarbeitung durch Wir verwenden MapReduce, Spark, Pig oder Hive Wir verwenden Oozie zur Workflow-Orchestrierung Cloud Composer Möchten Sie diese Workflow-Jobs so behalten?Ich unterstütze NoSQL-Arbeitslasten Wir verwenden Apache AccumuloCloud DataprocJA NEIN Verwenden Sie Co-Prozessoren oder SQL mit Apache Phoenix?Cloud DataprocCloud Bigtable Wir verwenden Apache HBase Ich führe einen Apache Hadoop-Cluster lokal aus

Ressourcen

Data Lake-Architekturen auf der Google Cloud Platform

Data Lakes ausschöpfen und füllen (Cloud Next ’18)

10 Tipps zum Erstellen langlebiger Cluster mit Cloud Dataproc

Data Warehouse für das Marketing erstellen

Lokale Hadoop-Infrastruktur zur Google Cloud Platform migrieren