Zonen hinzufügen

Auf dieser Seite werden Zonen vorgestellt und erklärt, wie Sie Ihrem Dataplex Lake Zonen hinzufügen.

Dataplex-Zonenkonzepte

Datenzonen sind benannte Entitäten in einem Dataplex-Lake. Sie sind logische Gruppierungen unstrukturierter, semistrukturierter und strukturierter Daten, die aus mehreren Assets wie Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen bestehen.

Ein Lake kann eine oder mehrere Zonen enthalten. Obwohl eine Zone nur Teil eines Lakes sein kann, kann sie Assets enthalten, die auf Ressourcen verweisen, die Teil von Projekten außerhalb des übergeordneten Projekts sind.

Sie können in Dataplex Konfigurationen für eine Zone auswählen. Es gibt zwei Arten von Zonen, aus denen Sie wählen können: unbearbeitete und ausgewählte Zonen.

Rohzonen

In Rohzonen werden strukturierte Daten, semistrukturierte Daten wie CSV- und JSON-Dateien sowie unstrukturierte Daten in einem beliebigen Format aus externen Quellen gespeichert. Dies ist nützlich für das Staging von Rohdaten, bevor Transformationen ausgeführt werden. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.

Rohzonen unterstützen Lese- und Schreibberechtigungen auf Bucket- oder Dataset-Ebene. Weitere Informationen finden Sie unter IAM und Zugriffssteuerung.

Es gibt keine Einschränkungen im Hinblick auf die Art der Daten, die in Rohzonen gespeichert werden können.

Ausgewählte Zonen

In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.

Zu den unterstützten Formaten für Cloud Storage-Buckets gehören Parquet, Avro und ORC. Dies ist nützlich für das Staging von Daten, die verarbeitet werden müssen, bevor sie für die Analyse verwendet werden, oder für die Bereitstellung von Daten, die für die Analyse bereit sind.

Für BigQuery-Tabellen benötigen Sie ein klar definiertes Schema und Hive-Partitionen. Wenn Sie ein Schema für eine bestimmte Tabelle in einer ausgewählten Zone angeben, sollten die Daten dem Schema entsprechen, das für die Tabelle ohne Schemaabweichung definiert wurde.

Das bedeutet, dass die Daten mit dem für die Tabelle definierten Schema kompatibel sein sollten und neue Partitionen kein Schema haben sollten, das mit dem Tabellenschema in Konflikt steht.

Ausgewählte Zonen unterstützen Lese- und Schreibberechtigungen auf Cloud Storage-Bucket- oder BigQuery-Dataset-Ebene. Weitere Informationen finden Sie unter Zugriffssteuerung mit IAM.

Hinweise

Bevor Sie einem Lake Zonen hinzufügen können, benötigen Sie einen Lake. Erstellen Sie einen Lake, falls noch nicht geschehen.

Für die meisten gcloud lake-Befehle ist ein Speicherort erforderlich. Sie können den Standort mit dem Parameter --location angeben.

Zugriffssteuerung

  • Zum Hinzufügen einer Zone benötigen Sie IAM-Rollen mit der IAM-Berechtigung dataplex.lakes.create. Mit der Dataplex-spezifischen Rolle roles/dataplex.admin können Berechtigungen zum Hinzufügen gewährt werden.

Weitere Informationen finden Sie unter Dataplex-Zugriffssteuerung mit IAM.

Zonen hinzufügen

Sie können eine neue Zone erstellen und einem vorhandenen Lake hinzufügen. Führen Sie dazu die Dataplex API-Methode lakes.zones.create aus oder fügen Sie eine Zone in der Google Cloud Console hinzu.

Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können jeweils eine Zone hinzufügen, aber den Lake während der Erstellung der Zone weiterhin verwenden.

Console

  1. Rufen Sie in der Google Cloud Console Dataplex auf:

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie in der Ansicht Manage (Verwalten) auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.

  4. Klicken Sie auf dem Tab Zonen auf Zone hinzufügen.

  5. Geben Sie einen Anzeigenamen für die Zone ein.

  6. Klicken Sie auf das Drop-down-Menü Typ. Wählen Sie Rohzone oder Ausgewählte Zone aus. Weitere Informationen zu unterstützten Zonentypen

  7. Optional: Geben Sie eine Beschreibung ein.

  8. Wählen Sie unter Speicherorte für Daten entweder Regional oder Multiregional aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und mehreren Regionen können nicht in derselben Zone kombiniert werden.

  9. Optional: Aktivieren Sie die Metadatenerkennung, damit Dataplex Metadaten automatisch scannen und aus den Daten in Ihrer Zone extrahieren kann:

    1. Klicken Sie auf Discovery-Einstellungen.

    2. Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.

    3. Optional: Listen Sie unter Muster einschließen die Dateien auf, die in die Erkennungsscans einbezogen werden sollen.

    4. Optional: Listen Sie unter Muster ausschließen die Dateien auf, die bei den Erkennungsscans ausgeschlossen werden sollen. Wenn Sie sowohl Einschluss- als auch Ausschlussmuster eingeben, werden Ausschlussmuster zuerst angewendet.

    5. Klicken Sie auf das Drop-down-Menü Wiederholungen und wählen Sie eine Häufigkeit aus.

    6. Klicken Sie auf das Drop-down-Menü Zeitzone und wählen Sie eine Zeitzone aus.

    7. Wenn Sie unter Wiederholungen die Option Benutzerdefiniert ausgewählt haben, geben Sie unter Zeitplan einen Jobzeitplan ein. Andernfalls wird der Wert für Zeitplan automatisch für Sie ausgefüllt.

  10. Klicken Sie auf Erstellen.

Das Erstellen der Zone kann einige Minuten dauern.

REST

Folgen Sie der API-Anleitung, um mit APIs Explorer eine Zone hinzuzufügen.

Wenn die Zone erfolgreich erstellt wurde, wechselt sie automatisch in den aktiven Status. Wenn er fehlschlägt, wird der Lake auf den vorherigen Zustand zurückgesetzt.

Nachdem Sie die Zone erstellt haben, können Sie Daten, die in Cloud Storage-Buckets und BigQuery-Datasets gespeichert sind, als Assets in Ihrer Zone zuordnen.

Nächste Schritte