Mit Dataplex können Sie eine Data-Mesh-Architektur erstellen. In dieser Anleitung erfahren Sie, wie Sie mit Dataplex-Features wie einem Lake, Zonen und Assets ein Data Mesh erstellen.
Ein Data Mesh ist ein organisatorischer und technischer Ansatz, bei dem die Dateneigentumsrechte zwischen den Domaininhabern dezentralisiert werden. Diese Inhaber stellen die Daten auf Standardmethode als Produkt bereit und erleichtern die Kommunikation zwischen verschiedenen Teilen der Organisation, um Datasets an verschiedene Standorte zu verteilen. Weitere Informationen zu Data-Mesh-Architekturen
Lernziele
In dieser Anleitung verwenden Sie die Dataplex-Entitäten, um eine Data-Mesh-Architektur zu erstellen:
- Erstellen Sie einen Dataplex-Lake, der als Domain für Ihr Data Mesh dient.
- Fügen Sie Ihrem Lake Zonen hinzu, die einzelne Teams in jeder Domain repräsentieren und verwaltete Datenverträge bereitstellen.
- Hängen Sie Assets an, die Daten in Cloud Storage zugeordnet sind.
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.
Hinweise
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
Aktivieren Sie die Dataplex API.
Cloud Storage-Bucket erstellen
Sie benötigen einen Cloud Storage-Bucket, um die Daten-Assets Ihres Data Mesh zu speichern.
Führen Sie die Schritte zum Erstellen eines Cloud Storage-Buckets aus und gehen Sie so vor:
- Benennen Sie den Bucket.
- Wählen Sie als Standorttyp die Option Region und dann im Drop-down-Menü die Option us-central1 (Iowa) aus.
Domain erstellen
Rufen Sie in der Google Cloud Console die Seite „Dataplex“ auf:
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie auf Erstellen, um einen neuen Lake zu erstellen, der als Data Mesh dient.
Geben Sie im Feld Anzeigename
My data mesh
ein.Wählen Sie bei Region die Option
us-central1
aus.Wählen Sie den Dataproc Metastore-Dienst aus, den Sie zuvor erstellt und als zugehörigen Metastore konfiguriert haben.
Klicken Sie auf Erstellen.
Zonen im Lake erstellen
Nachdem Sie eine Domain durch Erstellen eines Dataplex-Lakes erstellt haben, können Sie mithilfe von Zonen verwaltete Datenverträge und einzelne Teams innerhalb der Domain hosten. Es gibt zwei Arten von Zonen:
Rohzonen werden in der Regel verwendet, um Daten in einem beliebigen Format aus externen Quellen in Cloud Storage zu speichern. Rohzonen sind nützlich für Daten, die weiter verarbeitet werden müssen, bevor sie einsatzbereit sind.
Ausgewählte Zonen werden für strukturierte Daten in Cloud Storage verwendet, die bestimmten Dateiformaten entsprechen müssen und in einem Hive-kompatiblen Verzeichnislayout organisiert sind. Sie sind am nützlichsten für Daten, die verwendet und analysiert werden können.
Jede Domain (z. B. sales
, customers
, products
) sollte mindestens eine Rohzone und eine ausgewählte Zone haben.
Zusätzliche Zonen werden verwendet, um Datenverträge zwischen Teams zu verwalten oder eine detailliertere Aufschlüsselung für Teams innerhalb einer bestimmten Domain zu ermöglichen. z. B. die Inventarverwaltung innerhalb der Produktdomain. Dateninhaber können die Daten in ihrer Domain verwalten und darauf zugreifen.
Rufen Sie in Dataplex in der Google Cloud Console die Ansicht Verwalten auf.
Klicken Sie auf den Namen des Lakes (
My data mesh
), dem Sie eine Zone hinzufügen möchten.Klicken Sie auf dem Tab Zonen auf
Zone hinzufügen.Geben Sie im Feld Anzeigename
My sub domain
ein. Dataplex generiert automatisch eine ID für die Zone.HINWEIS: Der Zonenname wird zum Namen eines BigQuery-Datasets. Daher müssen alle im selben Google Cloud-Projekt gehosteten Zonen eine eindeutige ID haben, auch wenn sie in verschiedenen Lakes vorhanden sind.
Wählen Sie als Type (Typ) die Option Raw zone aus.
Klicken Sie auf Erstellen.
Assets an Zonen anhängen
Hängen Sie Daten-Assets an Ihre Zone an. Ein Daten-Asset, also die Speicherressourcen, die Ihre Daten enthalten, kann ein Cloud Storage-Bucket oder ein BigQuery-Dataset sein. Dies ist der letzte Schritt bei der Erstellung Ihrer Data-Mesh-Architektur.
Klicken Sie in der Dataplex-Ansicht Manage (Verwalten) auf den von Ihnen erstellten Lake (
My data mesh
).Klicken Sie auf dem Tab Zonen auf die Zone (
My sub domain
), der das Asset hinzugefügt werden soll.Klicken Sie auf dem Tab Assets auf
Assets hinzufügen.Klicken Sie auf Asset hinzufügen.
Wählen Sie als Typ die Option Cloud Storage-Bucket aus.
Geben Sie im Feld Anzeigename
Data mesh asset
ein. Dataplex generiert automatisch eine Asset-ID für Sie.Klicken Sie im Feld Bucket auf Durchsuchen.
- Wählen Sie Ihren Bucket aus der Liste aus.
- Klicken Sie auf Auswählen.
Klicken Sie auf Fertig und dann auf Weiter.
Klicken Sie auf Weiter, um die standardmäßigen Erweiterten Einstellungen zu übernehmen.
Klicken Sie auf Senden, um den Cloud Storage-Bucket als Daten-Asset Ihrer Zone hinzuzufügen.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Projekt löschen
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Data-Mesh-Architektur löschen
Rufen Sie in Dataplex in der Google Cloud Console die Ansicht Verwalten auf.
Klicken Sie für den Lake, den Sie löschen möchten, auf
, Mehr anzeigen, und dann auf Löschen.Bestätigen Sie die Aktion, indem Sie
delete
eingeben und auf Lake löschen klicken.