Best Practices

Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Dataplex.

Projekt für den Lake auswählen

Berücksichtigen Sie die folgenden Faktoren, wenn Sie das Projekt auswählen, in dem Sie den Lake hosten möchten:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die sich im Lake befinden sollen.

  • Das Lake-Dienstkonto erfordert Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt in BigQuery externe Tabellen für Tabellen, die in Cloud Storage erkannt wurden. Dataplex stellt außerdem BigQuery-Tabellenmetadaten und im Cloud Storage-Bucket erkannte Tabellen in einem Dataproc Metastore zur Verfügung. Der Dataproc Metastore befindet sich im Data Lake-Projekt.

Cloud Storage-Einstellungen und -Einschränkungen

  • Region: Dataplex unterstützt Buckets mit einer oder mehreren Regionen in einigen Google Cloud-Regionen.

  • Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.

  • Bucket-ACL: Dataplex unterstützt nur Cloud Storage-Buckets mit einheitlicher Zugriffssteuerung. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • "Anforderer bezahlt": Cloud Storage-Buckets mit aktivierter Funktion Anforderer bezahlt werden nicht unterstützt.

Informationen zu Sicherheit und Berechtigungen

Dataplex erfordert, dass die Dataplex-Dienstkonten als administratives Dienstkonto für verwaltete Buckets und Datasets hinzugefügt werden.

Mit Dataplex können Analysten in vielen Projekten auf Cloud Storage-Buckets und BigQuery-Datasets zugreifen. Um diesen Zugriff zu aktivieren, müssen Dataplex die Dataplex-Dienstkonten mit Verwaltungsfunktionen zu diesen Projekten hinzufügen.

Für die Erkennung fügt Dataplex das Dataproc Metastore-Dienstkonto den Cloud Storage-Buckets hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie festlegen, dass der Dataplex-Lake Ihren Dataproc Metastore-Dienst verwendet. Diese Option ist beim Erstellen des Lakes verfügbar.

Wenn Sie einen Cloud Storage-Bucket mit detailgenauem Zugriff auf einen Lake hinzufügen, bietet Dataplex über den Lake vollständigen Zugriff auf diesen Bucket, da Dataplex-Berechtigungen an alle Objekte im Bucket weitergegeben werden. Wenn Sie einen detaillierten Zugriff benötigen, wird empfohlen, die Daten im Bucket in mehrere Buckets aufzuteilen.

Nächste Schritte