Best Practices für Dataplex

Dieses Dokument enthält eine Anleitung und Best Practices für die Verwendung von Dataplex.

Projekt für Ihren See auswählen

Berücksichtigen Sie bei der Auswahl des Projekts, in dem Sie Ihren Data Lake hosten möchten, die folgenden Faktoren:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die in den Datensee aufgenommen werden sollen.

  • Das Lake-Dienstkonto erfordert Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt externe Tabellen in BigQuery für Tabellen, die in Cloud Storage gefunden wurden. Dataplex stellt auch BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket gefunden wurden, in einem Dataproc Metastore zur Verfügung. Der Dataproc Metastore befindet sich im Data Lake-Projekt.

Cloud Storage-Einstellungen und -Einschränkungen

  • Region: Dataplex unterstützt einzelne und mehrere Regionen in einigen Google Cloud-Regionen.

  • Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.

  • Bucket-ACL: Dataplex unterstützt nur Cloud Storage-Buckets mit einheitlichen Zugriffssteuerungen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • „Anfragender bezahlt“: Cloud Storage-Buckets, für die die Funktion Anfragender bezahlt aktiviert ist, werden nicht unterstützt.

Informationen zu Sicherheit und Berechtigungen

Dataplex erfordert das Hinzufügen von Dataplex Dienstkonten als administratives Dienstkonto für verwaltete Buckets und Datasets.

Dataplex ermöglicht Analysten den Zugriff auf Cloud Storage-Buckets und BigQuery-Datasets für viele Projekte. Um diesen Zugriff zu ermöglichen, müssen Sie diesen Projekten die Dataplex-Dienstkonten mit Verwaltungssteuerungen hinzufügen.

Für Discovery fügt Dataplex den Cloud Storage-Buckets das Dataproc Metastore-Dienstkonto hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie festlegen, dass der Dataplex-Lake Ihren Dataproc Metastore-Dienst verwendet. Diese Option ist beim Erstellen des Data Lake verfügbar.

Wenn Sie einen Cloud Storage-Bucket mit genauer Zugang zu einem See, Dataplex stellt über den Lake vollständigen Zugriff auf diesen Bucket bereit Dataplex-Berechtigungen werden an alle Objekte im Bucket. Wenn Sie einen detaillierten Zugriff benötigen, sollten Sie die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.

Nächste Schritte