Data Mesh erstellen


Mit Dataplex können Sie eine Data-Mesh-Architektur erstellen. In dieser Anleitung erfahren Sie, wie Sie mit Dataplex-Features wie Lakes, Zonen und Assets ein Data Mesh-Netzwerk erstellen.

Ein Data Mesh ist ein organisatorischer und technischer Ansatz, der die Dateneigentümerschaft zwischen Domaininhabern dezentralisiert. Diese Eigentümer stellen die Daten auf standardisierte Weise als Produkt zur Verfügung und erleichtern die Kommunikation zwischen verschiedenen Teilen des Unternehmens, um Datensätze an verschiedenen Standorten zu verteilen. Weitere Informationen zu Data-Mesh-Architekturen

Lernziele

In dieser Anleitung verwenden Sie die Dataplex-Entitäten, um eine Data Mesh-Architektur zu erstellen:

  • Erstellen Sie einen Dataplex-Lake, der als Domain für Ihr Data Mesh dient.
  • Fügen Sie Ihrem Lake Zonen hinzu, die einzelne Teams innerhalb jeder Domain repräsentieren, und stellen Sie verwaltete Datenverträge bereit.
  • Hängen Sie Assets an, die zu in Cloud Storage gespeicherten Daten gehören.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.

Hinweis

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Aktivieren Sie die Dataplex API.

    Dataplex API aktivieren

  4. Erstellen Sie einen Dataproc Metastore-Dienst.

Cloud Storage-Bucket erstellen

Sie benötigen einen Cloud Storage-Bucket, um die Daten-Assets Ihres Data Mesh zu speichern.

Folgen Sie der Anleitung unter Cloud Storage-Bucket erstellen, um einen Cloud Storage-Bucket zu erstellen. Beachten Sie dabei Folgendes:

  • Geben Sie einen Namen für den Bucket ein.
  • Wählen Sie als Standorttyp die Option Region und dann us-central1 (Iowa) aus dem Menü aus.

Domain erstellen

  1. Rufen Sie in der Google Cloud Console die Seite „Dataplex“ auf.

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf Erstellen, um einen neuen Lake zu erstellen, der als Data Mesh dient.

  4. Geben Sie im Feld Anzeigename den Wert My data mesh ein.

  5. Wählen Sie bei Region die Option us-central1 aus.

  6. Wählen Sie den Dataproc Metastore-Dienst aus, den Sie zuvor erstellt und konfiguriert haben, als verknüpften Metastore aus.

  7. Klicken Sie auf Erstellen.

Zonen in Ihrem Lake erstellen

Nachdem Sie eine Domain durch Erstellen eines Dataplex-Data Layers erstellt haben, können Sie mithilfe von Zonen verwaltete Datenverträge und einzelne Teams innerhalb der Domain hosten. Es gibt zwei Arten von Zonen:

  • Rohzonen werden in der Regel verwendet, um Daten in beliebigen Formaten aus externen Quellen in Cloud Storage zu speichern. Rohzonen sind nützlich für Daten, die weiterverarbeitet werden müssen, bevor sie verwendet werden können.

  • Kuratierte Zonen werden für strukturierte Daten in Cloud Storage verwendet, die bestimmten Dateiformaten entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sind. Sie eignen sich am besten für Daten, die für die Verwendung und Analyse bereit sind.

Jede Domain (z. B. sales, customers, products) sollte mindestens eine Rohzone und eine ausgewählte Zone haben.

Zusätzliche Zonen werden verwendet, um Datenverträge zwischen Teams zu verwalten oder eine detailliertere Aufschlüsselung für Teams innerhalb einer bestimmten Domain bereitzustellen. Beispiel: Inventarverwaltung innerhalb der Produktdomain. Dateneigentümer können die Daten in ihrer Domain verwalten und darauf zugreifen.

  1. Rufen Sie in der Google Cloud Console die Dataplex-Ansicht Verwalten auf.

  2. Klicken Sie auf den Namen des Sees (My data mesh), dem Sie eine Zone hinzufügen möchten.

  3. Klicken Sie auf dem Tab Zonen auf  Zone hinzufügen.

  4. Geben Sie im Feld Anzeigename den Wert My sub domain ein. Dataplex generiert automatisch eine ID für Ihre Zone.

  5. Wählen Sie unter Typ die Option Raw-Zone aus.

  6. Klicken Sie auf Erstellen.

Assets an Zonen anhängen

Hängen Sie Daten-Assets an Ihre Zone an. Ein Daten-Asset, also die Speicherressourcen, die Ihre Daten enthalten, kann ein Cloud Storage-Bucket oder ein BigQuery-Dataset sein. Dies ist der letzte Schritt beim Erstellen Ihrer Data Mesh-Architektur.

  1. Klicken Sie in der Dataplex-Ansicht Verwalten auf den von Ihnen erstellten Lake (My data mesh).

  2. Klicken Sie auf dem Tab Zonen auf die Zone (My sub domain), der Sie das Asset hinzufügen möchten.

  3. Klicke auf dem Tab Assets auf  Assets hinzufügen.

  4. Klicken Sie auf Asset hinzufügen.

  5. Wählen Sie unter Typ die Option Cloud Storage-Bucket aus.

  6. Geben Sie im Feld Anzeigename den Wert Data mesh asset ein. Dataplex generiert automatisch eine Asset-ID für Sie.

  7. Klicken Sie im Feld Bucket auf Durchsuchen.

    1. Wählen Sie den Bucket aus der Liste aus.
    2. Klicken Sie auf Auswählen.
  8. Klicken Sie auf Fertig und dann auf Weiter.

  9. Klicken Sie auf Weiter, um die standardmäßigen Erweiterten Einstellungen zu akzeptieren.

  10. Klicken Sie auf Senden.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Data-Mesh-Architektur löschen

  1. Rufen Sie in der Google Cloud Console die Dataplex-Ansicht Verwalten auf.

  2. Klicken Sie bei dem See, den Sie löschen möchten, auf  Mehr anzeigen und dann auf Löschen.

  3. Geben Sie delete ein und klicken Sie auf See löschen, um die Aktion zu bestätigen.

Nächste Schritte