Data Mesh erstellen


Mit Dataplex können Sie eine Data-Mesh-Architektur erstellen. In diesem Leitfaden erfahren Sie, wie Sie mit Dataplex-Features wie einem Lake, Zonen und Assets ein Data Mesh erstellen.

Ein Data Mesh ist ein organisatorischer und technischer Ansatz, der die Eigentümerschaft der Daten zwischen Domaininhabern dezentralisiert. Diese Inhaber stellen die Daten standardmäßig als Produkt zur Verfügung und erleichtern die Kommunikation zwischen verschiedenen Teilen der Organisation, um Datasets auf verschiedene Standorte zu verteilen. Weitere Informationen zu Data-Mesh-Architekturen

Lernziele

In dieser Anleitung verwenden Sie die Dataplex-Entitäten, um eine Data-Mesh-Architektur zu erstellen:

  • einen Dataplex-Lake erstellen, der als Domain für Ihr Data Mesh dient
  • Fügen Sie Ihrem Lake Zonen hinzu, die einzelne Teams in jeder Domain repräsentieren und verwaltete Datenverträge bereitstellen.
  • Assets anhängen, die Daten in Cloud Storage zugeordnet sind.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.

Hinweis

  1. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  2. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  3. Aktivieren Sie die Dataplex API.

    Dataplex API aktivieren

  4. Erstellen Sie einen Dataproc Metastore-Dienst.

Cloud Storage-Bucket erstellen

Sie benötigen einen Cloud Storage-Bucket, um die Daten-Assets Ihres Datennetzes zu speichern.

Führen Sie die Schritte zum Erstellen eines Cloud Storage-Buckets aus und gehen Sie so vor:

  • Geben Sie einen Namen für den Bucket ein.
  • Wählen Sie als Standorttyp die Option Region und dann im Drop-down-Menü us-central1 (Iowa) aus.

Domain erstellen

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite auf:

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf Erstellen, um einen neuen Lake zu erstellen, der als Data Mesh fungiert.

  4. Geben Sie im Feld Anzeigename My data mesh ein.

  5. Wählen Sie bei Region die Option us-central1 aus.

  6. Wählen Sie den Dataproc Metastore-Dienst aus, den Sie zuvor erstellt und als zugehörigen Metastore konfiguriert haben.

  7. Klicken Sie auf Erstellen.

Zonen im Lake erstellen

Nachdem Sie eine Domain durch Erstellen eines Dataplex-Lake erstellt haben, können Sie mithilfe von Zonen verwaltete Datenverträge und einzelne Teams innerhalb der Domain hosten. Es gibt zwei Arten von Zonen:

  • Rohzonen werden in der Regel verwendet, um Daten in einem beliebigen Format aus externen Quellen in Cloud Storage zu speichern. Rohzonen sind nützlich für Daten, die weiter verarbeitet werden müssen, bevor sie einsatzbereit sind.

  • Ausgewählte Abschnitte werden für strukturierte Daten in Cloud Storage verwendet, die bestimmten Dateiformaten entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sind. Sie sind am nützlichsten für Daten, die konsumiert und analysiert werden können.

Jede Domain (z. B. sales, customers, products) sollte mindestens eine Rohzone und eine ausgewählte Zone haben.

Zusätzliche Zonen werden verwendet, um Datenverträge zwischen Teams zu verwalten oder Teams eine konkretere Aufschlüsselung innerhalb einer bestimmten Domain zur Verfügung zu stellen. Das kann beispielsweise die Inventarverwaltung in der Produktdomain sein. Dateninhaber können die Daten innerhalb ihrer Domain verwalten und darauf zugreifen.

  1. Rufen Sie in Dataplex in der Google Cloud Console die Ansicht Verwalten auf.

  2. Klicken Sie auf den Namen des Lakes (My data mesh), dem Sie eine Zone hinzufügen möchten.

  3. Klicken Sie auf dem Tab Zonen auf Zone hinzufügen.

  4. Geben Sie im Feld Anzeigename My sub domain ein. Dataplex generiert automatisch eine ID für Ihre Zone.

    HINWEIS: Der Zonenname wird zum Namen eines BigQuery-Datasets. Daher müssen alle Zonen, die im selben Google Cloud-Projekt gehostet werden, eine eindeutige ID haben, auch wenn sie in verschiedenen Lakes vorhanden sind.

  5. Wählen Sie für Typ die Option Rohzone aus.

  6. Klicken Sie auf Erstellen.

Assets an Zonen anhängen

Daten-Assets an die Zone anhängen. Ein Daten-Asset, also die Speicherressourcen mit Ihren Daten, kann ein Cloud Storage-Bucket oder ein BigQuery-Dataset sein. Dies ist der letzte Schritt zum Erstellen einer Data-Mesh-Architektur.

  1. Klicken Sie in der Dataplex-Ansicht Verwalten auf den von Ihnen erstellten Lake (My data mesh).

  2. Klicken Sie auf dem Tab Zonen auf die Zone (My sub domain), der Sie das Asset hinzufügen möchten.

  3. Klicken Sie auf dem Tab Assets auf Assets hinzufügen.

  4. Klicken Sie auf Asset hinzufügen.

  5. Wählen Sie unter Typ die Option Cloud Storage-Bucket aus.

  6. Geben Sie im Feld Anzeigename den Wert Data mesh asset ein. Dataplex generiert automatisch eine Asset-ID für Sie.

  7. Klicken Sie im Feld Bucket auf Durchsuchen.

    1. Wählen Sie den Bucket aus der Liste aus.
    2. Klicken Sie auf Auswählen.
  8. Klicken Sie auf Fertig und dann auf Weiter.

  9. Klicken Sie auf Weiter, um die standardmäßigen erweiterten Einstellungen zu übernehmen.

  10. Klicken Sie auf Senden, um den Cloud Storage-Bucket als Daten-Asset der Zone hinzuzufügen.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Data-Mesh-Architektur löschen

  1. Rufen Sie in Dataplex in der Google Cloud Console die Ansicht Verwalten auf.

  2. Klicken Sie für den Lake, den Sie löschen möchten, auf Mehr anzeigen und dann auf Löschen.

  3. Bestätigen Sie die Aktion, indem Sie delete eingeben und auf Lake löschen klicken.

Nächste Schritte