Daten analysieren

Last reviewed 2023-08-08 UTC

In diesem Dokument des Google Cloud-Architektur-Frameworks werden einige Grundprinzipien und Best Practices für Datenanalysen in Google Cloud erläutert. Sie erfahren mehr über einige der wichtigsten Datenanalysedienste und dazu, wie sie in den verschiedenen Phasen des Datenlebenszyklus helfen können. Mit diesen Best Practices können Sie Ihre Datenanalyseanforderungen erfüllen und Ihr Systemdesign erstellen.

Grundprinzipien

Unternehmen möchten Daten analysieren und daraus umsetzbare Informationen gewinnen. Google Cloud bietet Ihnen verschiedene Dienste, die Sie im gesamten Datenlebenszyklus unterstützen – von der Datenaufnahme über Berichte bis hin zur Visualisierung. Die meisten dieser Dienste sind vollständig verwaltet und einige sind serverlos. Sie können auch eine Datenanalyseumgebung auf Compute Engine-VMs erstellen und verwalten, z. B. für das selbst gehostete Apache Hadoop oder Beam.

Anhand Ihres speziellen Fokus, Ihres Teamwissens und Ihrer strategischen Einblicke können Sie feststellen, welche Google Cloud-Dienste Sie für die Anforderungen Ihrer Datenanalyse nutzen sollten. Mit Dataflow können Sie beispielsweise komplexe Transformationen in einem serverlosen Ansatz schreiben. Sie müssen sich jedoch auf eine bestimmte Version der Konfigurationen verlassen, wenn es um Rechen- und Verarbeitungsanforderungen geht. Alternativ können Sie mit Dataproc dieselben Transformationen ausführen, aber Sie verwalten die Cluster und optimieren die Jobs selbst.

Überlegen Sie in Ihrem Systemdesign, welche Verarbeitungsstrategie Ihre Teams verwenden, z. B. Extrahieren, Transformieren, Laden (ETL) oder Extrahieren, Laden, Transformieren (ELT). Außerdem sollte das Systemdesign berücksichtigen, ob Batchanalysen oder Streaminganalysen verarbeitet werden müssen. Google Cloud bietet eine einheitliche Datenplattform, mit der Sie einen Data Lake oder ein Data Warehouse entsprechend Ihren Geschäftsanforderungen erstellen können.

Vorteile

Die folgende Tabelle bietet einen allgemeinen Überblick über Google Cloud-Analysedienste:

Google Cloud-Dienst	Beschreibung
Pub/Sub	Einfache, zuverlässige und skalierbare Grundlage für Streamanalysen und ereignisgesteuerte Computing-Systeme.
Dataflow	Ein vollständig verwalteter Dienst zur Transformation und Anreicherung von Daten im Streammodus (Echtzeitdaten) und Batchmodus (Verlaufsdaten).
Dataprep by Trifacta	Intelligenter Datendienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von strukturierten und unstrukturierten Daten für die Analyse
Dataproc	Schneller, nutzerfreundlicher und vollständig verwalteter Cloud-Dienst, um Apache Spark- und Apache Hadoop-Cluster auszuführen.
Cloud Data Fusion	Vollständig verwalteter Datenintegrationsdienst, der für die Cloud entwickelt wurde und Ihnen ermöglicht, ETL-/ELT-Datenpipelines zu erstellen und zu verwalten. Cloud Data Fusion bietet eine grafische Benutzeroberfläche und eine umfassende Open-Source-Bibliothek mit vorkonfigurierten Connectors und Transformationen.
BigQuery	Vollständig verwaltetes, kostengünstiges Data Warehouse, das mit Ihren Anforderungen an Speicherkapazität und Rechenleistung Schritt hält. BigQuery ist eine spaltenorientierte, ANSI-konforme SQL-Datenbank, die Terabyte bis Petabyte an Daten analysieren kann.
Cloud Composer	Vollständig verwalteter Dienst zur Workflow-Orchestrierung, mit dem Sie Pipelines erstellen, planen und überwachen können, die sich über Clouds und lokale Umgebungen erstrecken.
Data Catalog	Ein vollständig verwalteter und skalierbarer Dienst zur Metadatenverwaltung, mit dem Sie alle Ihre Daten finden, verwalten und verstehen können.
Looker Studio	Vollständig verwalteter Dienst für visuelle Analysen, mit dem Sie mithilfe interaktiver Dashboards Informationen aus Daten gewinnen können.
Looker	Unternehmensplattform, die Daten über Multi-Cloud-Umgebungen hinweg verbindet, analysiert und visualisiert.
Dataform	Vollständig verwaltetes Produkt für die Zusammenarbeit, Erstellung und Bereitstellung von Datenpipelines und die Gewährleistung der Datenqualität.
Dataplex	Verwalteter Data-Lake-Dienst, der Daten über Data Lakes, Data Warehouses und Data Marts mithilfe einheitlicher Kontrollen verwaltet, überwacht und steuert.
AnalyticsHub	Plattform, die Datenanalyse-Assets in Ihrer Organisation effizient und sicher austauscht, um Herausforderungen im Hinblick auf Datenzuverlässigkeit und Kosten zu bewältigen.

Datenlebenszyklus

Wenn Sie Ihr Systemdesign erstellen, können Sie die Google Cloud-Datenanalysedienste um die allgemeine Datenbewegung in einem beliebigen System oder um den Datenlebenszyklus gruppieren.

Der Datenlebenszyklus umfasst die folgenden Phasen und Beispieldienste:

Datenaufnahme umfasst Dienste wie Pub/Sub, Storage Transfer Service, Transfer Appliance und BigQuery.
Speicherung enthält Dienste wie Cloud Storage, Bigtable, Memorystore und BigQuery.
Verarbeitung und Transformation umfasst Dienste wie Dataflow, Dataproc, Dataprep, Schutz sensibler Daten und BigQuery.
Analyse und Warehousing umfasst Dienste wie BigQuery.
Berichterstellung und Visualisierung umfasst Dienste wie Looker Studio und Looker.

Die folgenden Phasen und Dienste werden über den gesamten Datenlebenszyklus ausgeführt:

Datenintegration umfasst Dienste wie Data Fusion.
Die Verwaltung und Governance von Metadaten umfasst Dienste wie Data Catalog.
Die Workflowverwaltung umfasst Dienste wie Cloud Composer.

Datenaufnahme

Wenden Sie folgende Best Practices für die Datenaufnahme auf Ihre eigene Umgebung an.

Datenquelle für die Aufnahme festlegen

Daten stammen in der Regel von einem anderen Cloud-Anbieter oder Dienst oder von einem lokalen Standort:

Zur Aufnahme von Daten von anderen Cloud-Anbietern verwenden Sie in der Regel Cloud Data Fusion, Storage Transfer Service oder BigQuery Transfer Service.
Berücksichtigen Sie bei der lokalen Datenaufnahme das Datenvolumen, das aufgenommen werden soll, und die Fähigkeiten Ihres Teams. Wenn Ihr Team einen Ansatz mit einer grafischen Benutzeroberfläche mit wenig Code bevorzugt, verwenden Sie Cloud Data Fusion mit einem geeigneten Connector, z. B. mit Java Database Connectivity (JDBC). Für große Datenmengen können Sie Transfer Appliance oder Storage Transfer Service verwenden.

Überlegen Sie, wie Sie Ihre Daten nach der Aufnahme verarbeiten möchten. Storage Transfer Service schreibt beispielsweise Daten nur in einen Cloud Storage-Bucket und BigQuery Data Transfer Service nur in ein BigQuery-Dataset. Cloud Data Fusion unterstützt mehrere Ziele.

Streaming- oder Batchdatenquellen identifizieren

Überlegen Sie, wie Sie Ihre Daten verwenden müssen und wo Sie Streaming- oder Batchanwendungsfälle haben. Wenn Sie beispielsweise einen globalen Streamingdienst mit niedrigen Latenzanforderungen ausführen, können Sie Pub/Sub verwenden. Wenn Sie Ihre Daten für die Analyse und Berichterstellung benötigen, können Sie Daten in BigQuery streamen.

Wenn Sie Daten aus einem System wie Apache Kafka in einer lokalen oder einer anderen Cloud-Umgebung streamen müssen, verwenden Sie die Dataflow-Vorlage "Kafka zu BigQuery". Bei Batcharbeitslasten besteht der erste Schritt in der Regel darin, Daten in Cloud Storage aufzunehmen. Verwenden Sie das gsutil oder Storage Transfer Service, um Daten aufzunehmen.

Daten mit automatisierten Tools aufnehmen

Das manuelle Verschieben von Daten aus anderen Systemen in die Cloud kann eine Herausforderung sein. Verwenden Sie nach Möglichkeit Tools, mit denen Sie die Datenaufnahmeprozesse automatisieren können. Cloud Data Fusion bietet beispielsweise Connectors und Plug-ins, um Daten aus externen Quellen mit einer Drag-and-drop-GUI zu übertragen. Wenn Ihre Teams Code schreiben möchten, können Sie mithilfe von Dataflow oder BigQuery die Datenaufnahme automatisieren. Pub/Sub kann sowohl bei einem Ansatz mit wenig Code als auch bei einem Code-First-Ansatz hilfreich sein. Wenn Sie Daten in Storage-Buckets aufnehmen möchten, verwenden Sie gsutil für Datenmengen von bis zu 1 TB. Um Daten mit einer Größe von mehr als 1 TB aufzunehmen, verwenden Sie Storage Transfer Service.

Daten mit einem Migrationstool aus einem anderen Data Warehouse aufnehmen

Wenn Sie von einem anderen Data-Warehouse-System wie Teradata, Netezza oder Redshift migrieren müssen, können Sie die Migrationsunterstützung von BigQuery Data Transfer Service verwenden. BigQuery Data Transfer Service bietet auch Übertragungen von Drittanbietern, mit denen Sie Daten nach einem Zeitplan aus externen Quellen aufnehmen können. Weitere Informationen finden Sie in den detaillierten Migrationsansätzen für jedes Data Warehouse.

Bedarf an Datenaufnahme einschätzen

Durch die Menge an Daten, die Sie aufnehmen müssen, können Sie ermitteln, welcher Dienst in Ihrem Systemdesign verwendet werden sollte. Für die Streamingaufnahme von Daten skaliert Pub/Sub auf zehn Gigabyte pro Sekunde. Kapazitäts-, Speicher- und regionale Anforderungen für Ihre Daten helfen Ihnen, zu bestimmen, ob Pub/Sub Lite eine bessere Option für Ihr Systemdesign ist. Weitere Informationen finden Sie unter Pub/Sub oder Pub/Sub Lite auswählen.

Schätzen Sie für die Batchaufnahme der Daten, wie viele Daten Sie insgesamt übertragen möchten und wie schnell Sie dies tun möchten. Sehen Sie sich die verfügbaren Migrationsoptionen an, einschließlich einer zeitlichen Schätzung und des Vergleichs von Online- und Offlineübertragungen.

Geeignete Tools verwenden, um regelmäßig Daten nach einem Zeitplan aufzunehmen

Mit Storage Transfer Service und BigQuery Data Transfer Service können Sie Aufnahmejobs planen. Verwenden Sie ein Workflow-Verwaltungssystem wie Cloud Composer, um eine genaue Kontrolle über den Zeitpunkt der Aufnahme oder das Quell- und Zielsystem zu erhalten. Wenn Sie einen manuellen Ansatz wünschen, können Sie Cloud Scheduler und Pub/Sub verwenden, um eine Cloud Functions-Funktion auszulösen.
Wenn Sie die Computing-Infrastruktur verwalten möchten, können Sie den Befehl gsutil mit Cron für die Datenübertragung bis zu 1 TB verwenden. Wenn Sie diesen manuellen Ansatz anstelle von Cloud Composer verwenden, folgen Sie den Best Practices für die Skripterstellung für Produktionsübertragungen.

Anforderungen an die Datenaufnahme von einem FTP/SFTP-Server prüfen

Wenn Sie eine codefreie Umgebung benötigen, um Daten von einem FTP/SFTP-Server aufzunehmen, können Sie die FTP-Kopier-Plug-ins verwenden. Wenn Sie eine Modernisierung vornehmen und eine langfristige Workflow-Lösung erstellen möchten, ist Cloud Composer ein vollständig verwalteter Dienst, mit dem Sie aus verschiedenen Quellen und Senken lesen und schreiben können.

Apache Kafka-Connectors zur Datenaufnahme verwenden

Wenn Sie Pub/Sub, Dataflow oder BigQuery verwenden, können Sie Daten mithilfe eines der Apache Kafka-Connectors aufnehmen. Mit dem Open-Source-Kafka-Connector für Pub/Sub können Sie beispielsweise Daten aus Pub/Sub oder Pub/Sub Lite aufnehmen.

Weitere Informationen

Datenspeicher

Wenden Sie folgende Best Practices für die Datenspeicherung auf Ihre eigene Umgebung an.

Geeigneten Datenspeicher für Ihre Anforderungen auswählen

Sehen Sie sich die nachgelagerte Nutzung Ihrer Daten an, um sich die Wahl der zu verwendenden Speicherlösung zu erleichtern. Die folgenden gängigen Anwendungsfälle für Ihre Daten geben Empfehlungen dafür, welches Google Cloud-Produkt Sie verwenden sollten:

Datenanwendungsfall	Produktempfehlung
Dateibasiert	Filestore
Objektbasiert	Cloud Storage
Niedrige Latenz	Bigtable
Zeitreihe	Bigtable
Online-Cache	Memorystore
Transaktionsverarbeitung	Cloud SQL
Business Intelligence (BI) und Analysen	BigQuery
Batchverarbeitung	Cloud Storage Bigtable, wenn eingehende Daten Zeitachsen sind und Sie mit geringer Latenz darauf zugreifen müssen BigQuery, wenn Sie SQL verwenden

Ihre Anforderungen an Datenstruktur prüfen

Für die meisten unstrukturierten Daten wie Dokumente und Textdateien, Audio- und Videodateien oder Logs ist ein objektbasierter Speicher die beste Wahl. Bei Bedarf können Sie die Daten dann aus dem Objektspeicher laden und verarbeiten.

Bei halbstrukturierten Daten wie XML oder JSON helfen Ihnen Ihre Anwendungsfälle und Datenzugriffsmuster bei der Auswahl. Sie können derartige Datasets zur automatischen Schemaerkennung in BigQuery laden. Wenn die Anforderungen an die Latenz niedrig sind, können Sie Ihre JSON-Daten in Bigtable laden. Wenn Sie Legacy-Anforderungen haben oder Ihre Anwendungen mit relationalen Datenbanken arbeiten, können Sie Datasets auch in einen Beziehungsspeicher laden.

Für strukturierte Daten wie CSV, Parquet, Avro oder ORC können Sie BigQuery verwenden, wenn Sie BI- und Analyseanforderungen haben, für die Sie SQL verwenden. Weitere Informationen finden Sie unter Daten im Batch laden. Wenn Sie einen Data Lake mit offenen Standards und Technologien erstellen möchten, können Sie Cloud Storage verwenden.

Daten migrieren und Kosten für HDFS reduzieren

Suchen Sie nach Möglichkeiten, HDFS-Daten (Hadoop Distributed File System) von lokalen oder anderen Cloud-Anbietern zu einem kostengünstigeren Objektspeichersystem zu verschieben. Cloud Storage ist die gängigste Wahl von Unternehmen für einen alternativen Datenspeicher. Informationen zu den Vor- und Nachteilen dieser Wahl finden Sie unter HDFS im Vergleich zu Cloud Storage.

Sie können Daten mit einer Push- oder Pull-Methode verschieben. Beide Methoden verwenden den Befehl hadoop distcp. Weitere Informationen finden Sie unter Lokale HDFS-Daten zu Google Cloud migrieren.

Sie können auch den Open-Source-Cloud Storage-Connector verwenden, damit Hadoop- und Spark-Jobs auf Daten in Cloud Storage zugreifen können. Der Connector wird standardmäßig auf Dataproc-Clustern installiert und kann manuell auf anderen Clustern installiert werden.

Mit einem Objektspeicher einen zusammenhängenden Data Lake erstellen

Ein Data Lake ist ein zentrales Repository zum Speichern, Verarbeiten und Sichern großer Mengen strukturierter, semistrukturierter oder unstrukturierter Daten. Sie können Cloud Composer und Cloud Data Fusion verwenden, um einen Data Lake zu erstellen.

Zum Erstellen einer modernen Datenplattform können Sie BigQuery als zentrale Datenquelle anstelle von Cloud Storage verwenden. BigQuery ist ein modernes Data Warehouse mit Trennung von Speicher und Computing. Mit einem auf BigQuery basierenden Data Lake können Sie herkömmliche Analysen von BigQuery in der Cloud Console ausführen. Außerdem können Sie über andere Frameworks wie Apache Spark auf die gespeicherten Daten zugreifen.

Weitere Informationen

Daten verarbeiten und transformieren

Wenden Sie die folgenden Best Practices für die Datenanalyse in Ihrer eigenen Umgebung an, wenn Sie Daten verarbeiten und transformieren.

Open-Source-Software zur Verwendung in Google Cloud ermitteln

Viele Google Cloud-Dienste verwenden Open-Source-Software, um die Umstellung nahtlos zu gestalten. Google Cloud bietet verwaltete und serverlose Lösungen mit Open APIs, die mit Open-Source-Frameworks kompatibel sind, um die Anbieterabhängigkeit zu reduzieren.

Dataproc ist ein Hadoop-kompatibler verwalteter Dienst, mit dem Sie Open-Source-Software mit geringem operativem Aufwand hosten können. Dataproc enthält Unterstützung für Spark, Hive, Pig, Presto und Zookeeper. Es bietet auch Hive Metastore als verwalteten Dienst, um sich als Single Point of Failure in der Hadoop-Umgebung zu entfernen.

Sie können zu Dataflow migrieren, wenn Sie derzeit Apache Beam als Batch- und Streamingverarbeitungs-Engine verwenden. Dataflow ist ein vollständig verwalteter und serverloser Dienst, der Apache Beam verwendet. Verwenden Sie Dataflow, um Jobs in Beam zu schreiben. Google Cloud verwaltet jedoch die Ausführungsumgebung.

Wenn Sie CDAP als Datenintegrationsplattform verwenden, können Sie zu Cloud Data Fusion migrieren, um eine vollständig verwaltete Umgebung zu erhalten.

Anforderungen zur ETL- oder ELT-Datenverarbeitung ermitteln

Die Erfahrungen und Präferenzen Ihres Teams helfen Ihnen, das Systemdesign zur Verarbeitung von Daten zu bestimmen. Google Cloud bietet Ihnen die Möglichkeit, entweder ein traditionelles ETL- oder ein moderneres ELT-System zur Datenverarbeitung zu verwenden.

Für ETL-Pipelines können Sie Data Fusion, Dataproc oder Dataflow verwenden.
- Für neue Umgebungen empfehlen wir Dataflow für eine einheitliche Möglichkeit, Batch- und Streaminganwendungen zu erstellen.
- Für einen vollständig verwalteten Ansatz bietet Data Fusion eine Drag-and-drop-GUI, mit der Sie Pipelines erstellen können.
Verwenden Sie für ELT-Pipelines BigQuery, das das Laden von Batch- und Streamingdaten unterstützt. Nachdem sich Ihre Daten in BigQuery befinden, führen Sie mit SQL alle Transformationen durch, um neue Datasets für Ihre geschäftlichen Anwendungsfälle abzuleiten.
Wenn Sie die Modernisierung und die Migration von ETL zu ELT durchführen möchten, können Sie Dataform verwenden.

Geeignetes Framework für Ihren Anwendungsfall verwenden

Ihre Daten-Anwendungsfälle bestimmen, welche Tools und Frameworks verwendet werden sollen. Einige Google Cloud-Produkte sind für alle der folgenden Daten-Anwendungsfälle ausgelegt, während andere nur einen bestimmten Anwendungsfall optimal unterstützen.

Bei einem Batchverarbeitungssystem können Sie Daten in BigQuery mit einer vertrauten SQL-Schnittstelle verarbeiten und umwandeln. Wenn Sie bereits eine Pipeline haben, die lokal in Apache Hadoop oder Spark oder in einer anderen öffentlichen Cloud ausgeführt wird, können Sie Dataproc verwenden.
- Sie können Dataflow auch verwenden, wenn Sie eine einheitliche Programmierschnittstelle für Batch- und Streaming-Anwendungsfälle wünschen. Wir empfehlen, dass Sie eine Modernisierung vornehmen und Dataflow für ETL und BigQuery für ELT verwenden.
Für Streaming-Datenpipelines verwenden Sie einen verwalteten und serverlosen Dienst wie Dataflow, der Windowing, Autoscaling und Vorlagen bietet. Weitere Informationen finden Sie unter Produktionsfertige Datenpipelines mit Dataflow erstellen.
- Wenn Sie Analyse- und SQL-orientierte Teams und Funktionen haben, können Sie auch Daten in BigQuery streamen.
Verwenden Sie Dataflow für Echtzeit-Anwendungsfälle, z. B. für die Zeitreihenanalyse oder für Streaming-Videoanalysen.

Zukünftig die Kontrolle über Ihre Ausführungs-Engine behalten

Nutzen Sie das Apache Beam-Programmiermodell und Dataflow als verwaltete serverlose Lösung, um die Anbieterabhängigkeit zu minimieren und in Zukunft eine andere Plattform verwenden zu können. Mit dem Beam-Programmiermodell können Sie die zugrunde liegende Ausführungs-Engine ändern, z. B. von Dataflow zu Apache Flink oder Apache Spark.

Dataflow verwenden, um Daten aus mehreren Quellen aufzunehmen

Verwenden Sie Dataflow, um Daten aus mehreren Quellen wie Pub/Sub, Cloud Storage, HDFS, S3 oder Kafka aufzunehmen. Dataflow ist ein verwalteter serverloser Dienst, der Dataflow-Vorlagen unterstützt, sodass Ihre Teams Vorlagen aus verschiedenen Tools ausführen können.

Dataflow Prime bietet horizontales und vertikales Autoscaling von Maschinen, die im Ausführungsprozess einer Pipeline verwendet werden. Außerdem finden Sie intelligente Diagnosen und Empfehlungen, die Probleme erkennen und Lösungen vorschlagen.

Vertrauliche Daten ermitteln, identifizieren und schützen

Mit dem Schutz sensibler Daten können Sie strukturierte und unstrukturierte Daten untersuchen und transformieren. Der Schutz sensibler Daten funktioniert für Daten, die sich an einem beliebigen Ort in Google Cloud befinden, z. B. in Cloud Storage oder Datenbanken. Sie können Ihre vertraulichen Daten klassifizieren, maskieren und tokenisieren, um sie für die nachgelagerte Verarbeitung sicher verwenden zu können. Verwenden Sie den Schutz sensibler Daten, um BigQuery-Daten zu scannen oder personenidentifizierbare Informationen in umfangreichen Datasets zu de-identifizieren und neu zu identifizieren.

Datentransformationsprozesse modernisieren

Verwenden Sie Dataform, um Datentransformationen als Code zu schreiben und standardmäßig die Versionsverwaltung zu verwenden. Sie können auch Best Practices für die Softwareentwicklung wie CI/CD, Unittests und Versionsverwaltung für SQL-Code anwenden. Dataform unterstützt alle wichtigen Cloud-Data-Warehouse-Produkte und -Datenbanken wie PostgreSQL.

Zusätzliche Ressourcen

Dataproc
Dataflow
- Pipelines in die Produktion verschieben
- Gängige Anwendungsfälle
Data Fusion
- Pipelineleistung
BigQuery
- Abfrageleistung optimieren
Dataform
- Best Practices für die Projektverwaltung
Schutz sensibler Daten

Datenanalyse und Data Warehouses

Wenden Sie die folgenden Best Practices für die Datenanalyse und das Data Warehouse auf Ihre eigene Umgebung an.

Ihre Datenspeicheranforderungen prüfen

Data Lakes und Data Warehouses schließen sich nicht gegenseitig aus. Data Lakes sind für die unstrukturierte und semistrukturierte Datenspeicherung und -verarbeitung nützlich. Data Warehouses eignen sich am besten für Analysen und BI.

Prüfen Sie Ihre Datenanforderungen, um zu ermitteln, wo Ihre Daten gespeichert werden sollten und welches Google Cloud-Produkt sich für die Verarbeitung und Analyse der Daten am besten eignet. Produkte wie BigQuery können Petabyte an Daten verarbeiten und mit Ihren Anforderungen wachsen.

Möglichkeiten zur Migration von einem traditionellen Data Warehouse zu BigQuery identifizieren

Prüfen Sie die herkömmlichen Data Warehouses, die derzeit in Ihrer Umgebung verwendet werden. Identifizieren Sie Möglichkeiten zur Migration Ihrer traditionellen Data Warehouses zu einem Google Cloud-Dienst wie BigQuery, um die Komplexität zu verringern und möglicherweise die Kosten zu senken. Weitere Informationen und Beispielszenarien finden Sie unter Data Warehouses zu BigQuery migrieren.

Föderierten Zugriff auf Daten planen

Prüfen Sie, welche Datenanforderungen Sie haben und wie Sie möglicherweise mit anderen Produkten und Diensten interagieren müssen. Ermitteln Sie die Anforderungen für Ihre Datenföderation und erstellen Sie ein geeignetes Systemdesign.

Mit BigQuery können Sie beispielsweise externe Tabellen definieren, die Daten aus anderen Quellen wie Bigtable, Cloud SQL, Cloud Storage oder Google Drive lesen können. Sie können diese externen Quellen mit Tabellen verknüpfen, die Sie in BigQuery speichern.

Flex-Slots von BigQuery verwenden, um On-Demand-Burst-Kapazität bereitzustellen

Manchmal benötigen Sie zusätzliche Kapazität für experimentelle oder explorative Analysen, die umfangreiche Rechenressourcen erfordern. BigQuery bietet zusätzliche Rechenkapazität in Form von Flex-Slots. Diese Flex-Slots sind nützlich, wenn eine Zeit mit hoher Nachfrage vorhanden ist oder Sie eine wichtige Analyse abschließen möchten.

Schemaunterschiede im Falle der Migration zu BigQuery verstehen

BigQuery unterstützt sowohl Sternschemas als auch Schneeflockenschemas, verwendet jedoch standardmäßig verschachtelte und wiederkehrende Felder. Verschachtelte und wiederkehrende Felder können im Vergleich zu anderen Schemas leichter gelesen und korreliert werden. Wenn Ihre Daten in einem Stern- oder Schneeflockenschema dargestellt sind und Sie zu BigQuery migrieren möchten, prüfen Sie Ihr Systemdesign auf erforderliche Änderungen an Prozessen oder Analysen.

Weitere Informationen

Berichte und Visualisierung

Wenden Sie die folgenden Best Practices für die Berichterstellung und Visualisierung auf Ihre eigene Umgebung an.

Daten mit BigQuery BI Engine visualisieren

BigQuery BI Engine ist ein schneller In-Memory-Analysedienst. Sie können BI Engine verwenden, um in BigQuery gespeicherte Daten mit Abfragereaktionszeiten von weniger als einer Sekunde und mit hoher Nebenläufigkeit zu analysieren. BI Engine ist in die BigQuery API integriert. Verwenden Sie die reservierte BI Engine-Kapazität, um die On-Demand- oder Pauschalpreise für Ihre Anforderungen zu verwalten. BI Engine kann auch mit anderen BI- oder benutzerdefinierten Dashboard-Anwendungen verwendet werden, die Antwortzeiten von unter einer Sekunde erfordern.

BI-Prozesse mit Looker modernisieren

Looker ist eine moderne Unternehmensplattform für BI, Datenanwendungen und eingebettete Analysen. Sie können konsistente Datenmodelle zusätzlich zu Ihren Daten mit Geschwindigkeit und Genauigkeit erstellen und auf Daten in transaktionalen und analytischen Datenspeichern zugreifen. Looker kann auch Ihre Daten in mehreren Datenbanken und Clouds analysieren. Wenn Sie bereits BI-Prozesse und -Tools haben, empfehlen wir, eine Modernisierung vorzunehmen und eine zentrale Plattform wie Looker zu verwenden.

Weitere Informationen

Workflow-Managementtools verwenden

Die Datenanalyse umfasst viele Prozesse und Dienste. Während des Datenanalyselebenszyklus werden Daten zwischen verschiedenen Tools und Verarbeitungspipelines verschoben. Verwenden Sie geeignete Tools zur Workflowverwaltung, um End-to-End-Datenpipelines zu verwalten und zu pflegen. Cloud Composer ist ein vollständig verwaltetes Workflow-Managementtool, das auf dem Open-Source-Projekt Apache Airflow basiert.

Sie können Cloud Composer verwenden, um Dataflow-Pipelines zu starten und Dataproc-Workflow-Vorlagen zu verwenden. Cloud Composer unterstützt Sie auch beim Erstellen einer CI/CD-Pipeline zum Testen, Synchronisieren und Bereitstellen von DAGs oder beim Verwenden einer CI/CD-Pipeline für die Datenverarbeitungsworkflows. Weitere Informationen finden Sie unter Cloud Composer: Best Practices für die Entwicklung.

Migrationsressourcen

Wenn Sie bereits eine Datenanalyseplattform ausführen und einige oder alle Arbeitslasten zu Google Cloud migrieren möchten, finden Sie Best Practices und Anleitungen in den folgenden Migrationsressourcen:

Allgemeine Anleitung zur Migration
- Migration zu Google Cloud: Migrationspfad auswählen
- Beispiel für die Modernisierung der Analyseplattform für Anzeigeninteraktionen von Twitter
Cloud Storage-Migration
- Lokale HDFS-Daten zu Google Cloud migrieren.
Pub/Sub-Migration
- Migration von Kafka zu Pub/Sub.
Bigtable-Migration
- Daten von HBase zu Bigtable migrieren.
- Von Aerospike zu Bigtable migrieren.
Dataproc-Migration
BigQuery-Migration
Composer-Migration
- Umgebungen zu Airflow 2 migrieren.

Nächste Schritte

Informationen zu Best Practices für das Systemdesign für KI und maschinelles Lernen von Google Cloud, einschließlich:

Weitere Informationen zu Google Cloud-Diensten für KI und maschinelles Lernen, die das Systemdesign unterstützen.
Best Practices für die ML-Datenverarbeitung.
Best Practices die Modellentwicklung und -training.

Weitere Kategorien im Architektur-Framework kennenlernen, z. B. Zuverlässigkeit, operative Exzellenz sowie Sicherheit, Datenschutz und Compliance.