Diese Seite wurde von der Cloud Translation API übersetzt.

Zonen hinzufügen

Auf dieser Seite werden Zonen vorgestellt und erklärt, wie Sie Ihren Dataplex-Lake.

Konzepte für Dataplex-Zonen

Datenzonen sind benannte Entitäten innerhalb eines Dataplex-Lakes. Sie sind logische Gruppierungen von unstrukturierten, semistrukturierten und strukturierten Daten, die aus mehreren Assets bestehen, z. B. Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen.

Ein See kann eine oder mehrere Zonen umfassen. Eine Zone kann nur Teil eines Lake sein, sie kann aber Assets enthalten, die auf Ressourcen verweisen, die zu Projekten außerhalb des übergeordneten Projekts gehören.

Sie können Konfigurationen für eine Zone in Dataplex auswählen. Sie können zwischen zwei Zonentypen wählen: Rohdatenzonen und kuratierte Zonen.

Rohzonen

In Rohzonen werden strukturierte Daten, semistrukturierte Daten wie CSV-Dateien und JSON-Dateien und unstrukturierte Daten in jedem Format aus externen Quellen. Dies ist nützlich, um Rohdaten bereitzustellen, bevor Transformationen. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.

Rohzonen unterstützen Lese- und Schreibvorgänge auf Bucket- oder Dataset-Ebene Berechtigungen. Weitere Informationen finden Sie unter IAM und Zugriffssteuerung.

Es gibt keine Einschränkungen im Hinblick auf die Art der Daten, die in Rohzonen gespeichert werden können.

Ausgewählte Zonen

In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets gespeichert werden oder BigQuery-Datasets.

Zu den unterstützten Formaten für Cloud Storage-Buckets gehören Parquet, Avro und ORC. Das ist nützlich für die Bereitstellung von Daten, die verarbeitet werden müssen, bevor sie für die Analyse verwendet werden, oder für die Bereitstellung von Daten, die für die Analyse bereit sind.

Für BigQuery-Tabellen benötigen Sie ein klar definiertes Schema und Partitionen im Hive-Stil Wenn Sie ein Schema für eine bestimmte Tabelle in einer Zone, müssen die Daten dem Schema entsprechen, das für die Tabelle ohne Schema definiert wurde. Drift.

Das bedeutet, dass die Daten mit dem Schema kompatibel sein sollten, für die Tabelle definiert wurde und neue Partitionen kein Schema haben sollten, mit dem Tabellenschema steht.

Für Lese- und Schreibberechtigungen werden in kuratierten Zonen die Detailebenen „Cloud Storage-Bucket“ oder „BigQuery-Dataset“ unterstützt. Weitere Informationen finden Sie unter Zugriffssteuerung mit IAM.

Hinweise

Bevor Sie einem See Zonen hinzufügen können, müssen Sie einen See haben. Wenn Sie noch keine erstellen Sie einen Lake.

Für die meisten gcloud lake-Befehle ist ein Speicherort erforderlich. Sie können den Standort angeben, indem Sie indem Sie den Parameter --location festlegen.

Zugriffssteuerung

Um eine Zone hinzuzufügen, müssen Sie IAM-Rollen mit der IAM-Berechtigung dataplex.lakes.create haben. Mit der Dataplex-spezifischen Rolle roles/dataplex.admin können Sie Berechtigungen zum Hinzufügen erteilen.

Weitere Informationen finden Sie unter Dataplex-Zugriffssteuerung mit IAM.