In diesem Dokument wird beschrieben, was Dataplex-Zonen sind und wie Sie sie Ihrem Dataplex-Lake hinzufügen.
Übersicht
Dataplex-Zonen sind benannte Entitäten innerhalb eines Dataplex-Lakes. Sie sind logische Gruppierungen von unstrukturierten, semistrukturierten und strukturierten Daten, die aus mehreren Assets bestehen, z. B. Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen.
Ein See kann eine oder mehrere Zonen umfassen. Eine Zone kann nur Teil eines Lake sein, aber Assets enthalten, die auf Ressourcen verweisen, die zu Projekten außerhalb des übergeordneten Projekts gehören.
Sie können Konfigurationen für eine Zone in Dataplex auswählen. Es gibt zwei Arten von Zonen: Rohdaten und kuratierte Daten.
Rohdatenzonen
In Rohzonen werden strukturierte Daten, semistrukturierte Daten wie CSV- und JSON-Dateien sowie unstrukturierte Daten in beliebigen Formaten aus externen Quellen gespeichert. Rohzonen eignen sich zum Staging von Rohdaten, bevor Transformationen durchgeführt werden. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Für Lese- und Schreibberechtigungen wird in Rohzonen eine Granularität auf Bucket- oder Datasetebene unterstützt. Es gibt keine Einschränkungen für die Art der Daten, die in Rohzonen gespeichert werden können.
Ausgewählte Zonen
In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Zu den unterstützten Formaten für Cloud Storage-Buckets gehören Parquet, Avro und ORC. Sie eignen sich zum Staging von Daten, die verarbeitet werden müssen, bevor sie für Analysen verwendet werden können, oder zum Bereitstellen von Daten, die für Analysen bereit sind.
Für BigQuery-Tabellen müssen Sie ein gut definiertes Schema und Hive-Partitionen haben. Wenn Sie ein Schema für eine bestimmte Tabelle in einer kuratierten Zone angeben, sollten die Daten dem für die Tabelle definierten Schema entsprechen, ohne dass es zu Abweichungen kommt. Das bedeutet, dass die Daten mit dem für die Tabelle definierten Schema kompatibel sein müssen und neue Partitionen kein Schema haben dürfen, das mit dem Tabellenschema in Konflikt steht.
Für Lese- und Schreibberechtigungen werden in kuratierten Zonen die Detailebenen „Cloud Storage-Bucket“ oder „BigQuery-Dataset“ unterstützt.
Hinweise
Bevor Sie einem See Zonen hinzufügen können, müssen Sie einen See haben. Erstellen Sie einen Lake, falls noch nicht geschehen.
Für die meisten gcloud lake
-Befehle ist ein Speicherort erforderlich. Sie können den Speicherort mit dem Parameter --location
angeben.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataplex Administrator (roles/dataplex.admin
) für das Projekt zuzuweisen, um die Berechtigung zum Hinzufügen einer Zone zu erhalten.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die Berechtigung dataplex.lakes.create
, die zum Hinzufügen einer Zone erforderlich ist.
Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Zonen hinzufügen
Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können jeweils nur eine Zone hinzufügen, aber den Datensee auch während der Erstellung der Zone verwenden.
So fügen Sie einem vorhandenen See eine Zone hinzu:
Console
Rufen Sie in der Google Cloud Console „Dataplex“ auf.
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie in der Ansicht Verwalten auf den Namen des Sees, dem Sie eine Zone hinzufügen möchten.
Klicken Sie auf dem Tab Zonen auf
Zone hinzufügen.Geben Sie einen Anzeigenamen für die Zone ein.
Klicken Sie auf das Menü Typ. Wählen Sie Raw Zone oder Curated Zone aus. Weitere Informationen zu unterstützten Zonentypen
Optional: Geben Sie eine Beschreibung ein.
Wählen Sie unter Speicherorte für Daten entweder Regional oder Mehrere Regionen aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und aus mehreren Regionen können nicht in derselben Zone gemischt werden.
Optional: Aktivieren Sie die Metadatenerkennung, damit Dataplex Metadaten automatisch aus den Daten in Ihrer Zone scannen und extrahieren kann:
Klicken Sie auf Einstellungen für die Entdeckung.
Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.
Optional: Geben Sie unter Muster einschließen die Dateien an, die in die Discovery-Scans einbezogen werden sollen.
Optional: Geben Sie unter Auszuschließende Muster die Dateien an, die bei Discovery-Scans ausgeschlossen werden sollen. Wenn Sie sowohl Einschluss- als auch Ausschlussmuster eingeben, werden Ausschlussmuster zuerst angewendet.
Klicken Sie auf das Menü Wiederholen und wählen Sie eine Häufigkeit aus. Wenn Sie Benutzerdefiniert auswählen, geben Sie im Feld Zeitplan einen Aufgabenzeitplan ein. Andernfalls wird der Wert Planen automatisch für Sie ausgefüllt.
Klicken Sie auf das Menü Zeitzone und wählen Sie eine Zeitzone aus.
Klicken Sie auf Erstellen.
REST
Verwenden Sie die Methode lakes.zones.create, um eine Zone hinzuzufügen.
Es kann einige Minuten dauern, bis die Zone erstellt ist.
Wenn die Zone erfolgreich erstellt wurde, wechselt sie automatisch in den aktiven Zustand. Wenn der Vorgang fehlschlägt, wird der Datensee auf seinen vorherigen Zustand zurückgesetzt.
Nachdem Sie die Zone erstellt haben, können Sie Daten, die in Cloud Storage-Buckets und BigQuery-Datasets gespeichert sind, als Assets Ihrer Zone zuordnen. Weitere Informationen finden Sie unter Assets hinzufügen.
Nächste Schritte
- Weitere Informationen zum Verwalten von Buckets
- Weitere Informationen zum Erstellen eines Sees
- Cloud-Audit-Logs