Zonen hinzufügen

Auf dieser Seite werden Zonen vorgestellt und erklärt, wie Sie Ihren Dataplex-Lake.

Dataplex-Zonenkonzepte

Datenzonen sind benannte Entitäten in einem Dataplex-Lake. Sie sind logische Gruppierungen unstrukturierter, semistrukturierter und strukturierter Daten. bestehend aus mehreren Assets wie Cloud Storage-Buckets, BigQuery Datasets und BigQuery-Tabellen.

Ein Lake kann eine oder mehrere Zonen enthalten. Eine Zone kann nur Teil eines kann er Assets enthalten, die auf Ressourcen verweisen, die Teil von Projekten sind. übergeordneten Projekts erstellt.

Sie können in Dataplex Konfigurationen für eine Zone auswählen. Es gibt Sie können zwischen zwei Arten von Zonen wählen: unbearbeitete und ausgewählte Zonen.

Rohzonen

In Rohzonen werden strukturierte Daten, semistrukturierte Daten wie CSV-Dateien und JSON-Dateien und unstrukturierte Daten in jedem Format aus externen Quellen. Dies ist nützlich, um Rohdaten bereitzustellen, bevor Transformationen. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets.

Rohzonen unterstützen Lese- und Schreibvorgänge auf Bucket- oder Dataset-Ebene Berechtigungen. Weitere Informationen finden Sie unter IAM und Zugriffssteuerung.

Es gibt keine Einschränkungen im Hinblick auf die Art der Daten, die in Rohzonen gespeichert werden können.

Ausgewählte Zonen

In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets gespeichert werden oder BigQuery-Datasets.

Zu den unterstützten Formaten für Cloud Storage-Buckets gehören Parquet, Avro und ORC. Dies ist nützlich beim Staging von Daten, die vor ihrer Verwendung verarbeitet werden müssen. oder Daten bereitstellen, die für die Analyse bereit sind.

Für BigQuery-Tabellen benötigen Sie ein klar definiertes Schema und Partitionen im Hive-Stil Wenn Sie ein Schema für eine bestimmte Tabelle in einer Zone, müssen die Daten dem Schema entsprechen, das für die Tabelle ohne Schema definiert wurde. Drift.

Das bedeutet, dass die Daten mit dem Schema kompatibel sein sollten, für die Tabelle definiert wurde und neue Partitionen kein Schema haben sollten, mit dem Tabellenschema steht.

Ausgewählte Zonen unterstützen Cloud Storage-Bucket-Ebene oder Detaillierungsgrad auf BigQuery-Dataset-Ebene für Lese- und Schreibvorgänge Berechtigungen. Weitere Informationen finden Sie unter Zugriffssteuerung mit IAM.

Hinweise

Bevor Sie einem Lake Zonen hinzufügen können, benötigen Sie einen Lake. Wenn Sie noch nicht erstellen Sie einen Lake.

Für die meisten gcloud lake-Befehle ist ein Speicherort erforderlich. Sie können den Standort angeben, indem Sie indem Sie den Parameter --location festlegen.

Zugriffssteuerung

  • Zum Hinzufügen einer Zone benötigen Sie IAM-Rollen mit folgendem Inhalt: die IAM-Berechtigung dataplex.lakes.create Dataplex roles/dataplex.admin kann verwendet werden, um Berechtigungen zum Hinzufügen zu gewähren.

Weitere Informationen finden Sie unter Dataplex-Zugriffssteuerung mit IAM.

Zonen hinzufügen

Sie können eine neue Zone erstellen und einem vorhandenen Lake hinzufügen, indem Sie den Dataplex API-Methode lakes.zones.create oder in der Google Cloud Console eine Zone hinzufügen.

Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können jeweils eine Zone hinzufügen, während die Zone erstellt wird.

Console

  1. Rufen Sie in der Google Cloud Console Dataplex auf:

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie in der Ansicht Manage (Verwalten) auf den Namen des Lakes, dem Sie einen in den Bereich.

  4. Klicken Sie auf dem Tab Zonen auf . Zone hinzufügen:

  5. Geben Sie einen Anzeigenamen für die Zone ein.

  6. Klicken Sie auf das Drop-down-Menü Typ. Wählen Sie Rohzone oder Ausgewählte Zone aus. Weitere Informationen Unterstützte Zonentypen

  7. Optional: Geben Sie eine Beschreibung ein.

  8. Wählen Sie unter Speicherorte für Daten entweder Regional oder Multiregional aus. Ihre Auswahl kann später nicht mehr geändert werden. Einzelne Region und multiregional Daten können nicht in derselben Zone gemischt werden.

  9. Optional: Metadatenerkennung aktivieren, die Dataplex ermöglicht , um Metadaten automatisch zu scannen und aus den Daten in Ihrer Zone zu extrahieren:

    1. Klicken Sie auf Discovery-Einstellungen.

    2. Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.

    3. Optional: Listen Sie unter Muster einschließen die Dateien auf, die in das Feld Erkennungsscans.

    4. Optional: Listen Sie unter Muster ausschließen die Dateien auf, die ausgeschlossen werden sollen. Erkennungsscans. Wenn Sie sowohl Ein- als auch Ausschlussmuster eingeben, schließen Sie werden zuerst angewendet.

    5. Klicken Sie auf das Drop-down-Menü Wiederholungen und wählen Sie eine Häufigkeit aus.

    6. Klicken Sie auf das Drop-down-Menü Zeitzone und wählen Sie eine Zeitzone aus.

    7. Wenn Sie unter Wiederholungen Benutzerdefiniert ausgewählt haben, geben Sie unter Planen Folgendes ein: einen Jobzeitplan Andernfalls wird der Wert für Zeitplan automatisch für Sie ausgefüllt.

  10. Klicken Sie auf Erstellen.

Das Erstellen der Zone kann einige Minuten dauern.

REST

Folgen Sie der API-Anleitung zum Hinzufügen einer Zone. mit APIs Explorer.

Wenn die Zone erfolgreich erstellt wurde, wechselt sie automatisch in den aktiven Status. Wenn schlägt er fehl, wird der Lake auf den vorherigen Zustand zurückgesetzt.

Nachdem Sie Ihre Zone erstellt haben, können Sie Daten zuordnen, die in Cloud Storage-Buckets gespeichert sind und BigQuery-Datasets als Assets in Ihrem .

Nächste Schritte