Best Practices für Dataplex

Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Dataplex.

Projekt für den Lake auswählen

Berücksichtigen Sie bei der Auswahl des Projekts, in dem Ihr Lake gehostet werden soll, die folgenden Faktoren:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die sich im Lake befinden.

  • Das Lake-Dienstkonto erfordert Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt für Tabellen, die in Cloud Storage erkannt wurden, externe Tabellen in BigQuery. Dataplex stellt außerdem Metadaten von BigQuery-Tabelle und im Cloud Storage-Bucket erkannte Tabellen in einem Dataproc Metastore zur Verfügung. Der Dataproc Metastore befindet sich im Data-Lake-Projekt.

Cloud Storage-Einstellungen und -Einschränkungen

  • Region: Dataplex unterstützt Buckets mit einer und mehreren Regionen in einigen Google Cloud-Regionen.

  • Speicherklasse: Es werden Cloud Storage-Buckets aller Speicherklassen unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.

  • Bucket-ACL: Dataplex unterstützt nur Cloud Storage-Buckets mit einheitlicher Zugriffssteuerung. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • Anforderer bezahlt: Cloud Storage-Buckets, für die die Funktion Anforderer bezahlt aktiviert ist, werden nicht unterstützt.

Hinweise zu Sicherheit und Berechtigungen

Dataplex erfordert das Hinzufügen der Dataplex-Dienstkonten als Administratordienstkonto für verwaltete Buckets und Datasets.

Dataplex ermöglicht Analysten den Zugriff auf Cloud Storage-Buckets und BigQuery-Datasets in vielen Projekten. Damit dieser Zugriff aktiviert werden kann, müssen in Dataplex die Dataplex-Dienstkonten mit administrativen Steuerelementen zu diesen Projekten hinzugefügt werden.

Für Discovery fügt Dataplex den Cloud Storage-Buckets das Dataproc Metastore-Dienstkonto hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie dafür sorgen, dass der Dataplex-Lake Ihren Dataproc Metastore-Dienst verwendet. Dies ist eine Option, wenn Sie Ihren Lake erstellen.

Wenn Sie einen Cloud Storage-Bucket mit Detailgenauem Zugriff auf einen Lake hinzufügen, bietet Dataplex vollständigen Zugriff auf diesen Bucket über den Lake, da Dataplex-Berechtigungen an alle Objekte im Bucket weitergegeben werden. Wenn Sie einen detaillierten Zugriff benötigen, sollten Sie die Daten im Bucket in mehrere Buckets aufteilen.

Nächste Schritte