Zonen hinzufügen

Auf dieser Seite werden Zonen vorgestellt und es wird erläutert, wie Sie Zonen zu Ihrem Dataplex-Lake hinzufügen.

Konzepte von Dataplex-Zonen

Datenzonen sind benannte Entitäten in einem Dataplex-Lake. Dies sind logische Gruppierungen unstrukturierter, semistrukturierter und strukturierter Daten, die aus mehreren Assets bestehen, z. B. Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen.

Ein Lake kann eine oder mehrere Zonen enthalten. Eine Zone kann nur Teil eines einzigen Lake sein, kann aber Assets enthalten, die auf Ressourcen verweisen, die Teil von Projekten außerhalb ihres übergeordneten Projekts sind.

Sie können Konfigurationen für eine Zone in Dataplex auswählen. Es gibt zwei Arten von Zonen: aus Roh- und ausgewählten Zonen.

Rohzonen

Rohzonen speichern strukturierte, semistrukturierte und unstrukturierte Daten in jedem Format aus externen Quellen. Dies ist nützlich, um Rohdaten zu implementieren, bevor Transformationen durchgeführt werden. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.

Rohzonen unterstützen die Leseeinheit auf Bucket- oder Dataset-Ebene für Lese- und Schreibberechtigungen. Weitere Informationen finden Sie unter IAM und Zugriffssteuerung.

Es gibt keine Einschränkungen im Hinblick auf die Art von Daten, die in Rohzonen gespeichert werden können.

Ausgewählte Zonen

In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.

Unterstützte Formate für Cloud Storage-Buckets sind Parquet, Avro und ORC. Dies ist nützlich für das Staging von Daten, die vor der Analyse verarbeitet werden müssen, oder für die Bereitstellung von Daten, die für die Analyse bereit sind.

Für BigQuery-Tabellen benötigen Sie ein klar definiertes Schema und Hive-Partitionen. Wenn Sie ein Schema für eine bestimmte Tabelle in einer ausgewählten Zone angeben, sollten die Daten dem Schema entsprechen, das für die Tabelle ohne Schemaabweichung festgelegt wurde.

Das bedeutet, dass die Daten mit dem für die Tabelle definierten Schema kompatibel sein müssen. Neue Partitionen sollten kein Schema haben, das mit dem Tabellenschema in Konflikt steht.

Ausgewählte Sammlungen unterstützen Lese- und Schreibberechtigungen auf Cloud Storage-Bucket- oder BigQuery-Dataset-Ebene. Weitere Informationen finden Sie unter Zugriffssteuerung mit IAM.

Hinweis

Zum Hinzufügen von Zonen zu einem Lake benötigen Sie einen Lake. Erstellen Sie einen Lake, falls noch nicht geschehen.

Für die meisten gcloud lake-Befehle ist ein Speicherort erforderlich. Sie können den Standort mit dem Parameter --location angeben.

Zugriffssteuerung

  • Zum Hinzufügen einer Zone benötigen Sie IAM-Rollen mit der IAM-Berechtigung dataplex.lakes.create. Mit der Dataplex-spezifischen Rolle roles/dataplex.admin können Sie Berechtigungen zum Hinzufügen erteilen.

Weitere Informationen finden Sie unter Dataplex-Zugriffssteuerung mit IAM.

Zonen hinzufügen

Sie können eine neue Zone erstellen und einem vorhandenen Lake hinzufügen, indem Sie die Dataplex API-Methode lakes.zones.create verwenden oder eine Zone in der Google Cloud Console hinzufügen.

Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können eine Zone nach der anderen hinzufügen, aber weiterhin Ihren Lake verwenden, während die Zone erstellt wird.

Console

  1. Rufen Sie in der Google Cloud Console Dataplex auf:

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.

  4. Klicken Sie auf dem Tab Zonen auf Zone hinzufügen.

  5. Geben Sie einen Anzeigenamen für die Zone ein.

  6. Klicken Sie auf das Drop-down-Menü Typ. Wählen Sie Rohzone oder Ausgewählte Zone aus. Weitere Informationen zu unterstützten Zonentypen

  7. Optional: Geben Sie eine Beschreibung ein.

  8. Wählen Sie unter Speicherorte für Daten entweder Regional oder Multiregional aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten einer einzelnen Region und mehrerer Regionen können nicht in derselben Zone gemischt werden.

  9. Optional: Aktivieren Sie die Metadatenerkennung, damit Dataplex Metadaten automatisch scannen und aus den Daten in Ihrer Zone extrahieren kann:

    1. Klicken Sie auf Discovery-Einstellungen.

    2. Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.

    3. Optional: Geben Sie unter Muster einschließen die Dateien an, die in den Erkennungsscans einbezogen werden sollen.

    4. Optional: Listen Sie unter Muster ausschließen die Dateien auf, die bei den Discovery-Scans ausgeschlossen werden sollen. Wenn Sie sowohl Einschluss- als auch Ausschlussmuster eingeben, werden Ausschlussmuster zuerst angewendet.

    5. Klicken Sie auf das Drop-down-Menü Wiederholungen und wählen Sie eine Häufigkeit aus.

    6. Klicken Sie auf das Drop-down-Menü Zeitzone und wählen Sie eine Zeitzone aus.

    7. Wenn Sie unter Wiederholungen die Option Benutzerdefiniert ausgewählt haben, geben Sie unter Zeitplan einen Jobzeitplan ein. Andernfalls wird der Wert für Zeitplan automatisch eingefügt.

  10. Klicken Sie auf Erstellen.

Das Erstellen der Zone kann einige Minuten dauern.

REST

Folgen Sie der API-Anleitung zum Hinzufügen einer Zone mit dem APIs Explorer.

Wenn die Erstellung der Zone erfolgreich war, wechselt die Zone automatisch in den aktiven Status. Wenn dieser fehlschlägt, wird der Lake auf seinen vorherigen Zustand zurückgesetzt.

Nachdem Sie die Zone erstellt haben, können Sie die in Cloud Storage-Buckets und BigQuery-Datasets gespeicherten Daten als Assets in Ihrer Zone zuordnen.

Nächste Schritte