Dieses Dokument enthält eine Anleitung und Best Practices für die Verwendung von Dataplex.
Projekt für Ihren See auswählen
Berücksichtigen Sie bei der Auswahl des Projekts, in dem Sie Ihren Data Lake hosten möchten, die folgenden Faktoren:
Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die in den Datensee aufgenommen werden sollen.
Das Dienstkonto für den Datensee benötigt Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt externe Tabellen in BigQuery für Tabellen, die in Cloud Storage gefunden wurden. Dataplex stellt auch BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket gefunden wurden, in einem Dataproc Metastore-Dienst zur Verfügung. Der Dataproc Metastore befindet sich im Data Lake-Projekt.
Cloud Storage-Einstellungen und -Einschränkungen
Region: Dataplex unterstützt in einigen Google Cloud Regionen einzelne Regionen und Multi-Region-Buckets.
Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.
Bucket-ACL: Dataplex unterstützt nur Cloud Storage-Buckets mit einheitlichen Zugriffssteuerungen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.
„Anfragender bezahlt“: Cloud Storage-Buckets, für die die Funktion Anfragender bezahlt aktiviert ist, werden nicht unterstützt.
Informationen zu Sicherheit und Berechtigungen
Für Dataplex müssen die Dataplex-Dienstkonten als Administratordienstkonto zu verwalteten Buckets und Datensätzen hinzugefügt werden.
Mit Dataplex können Analysten in vielen Projekten auf Cloud Storage-Buckets und BigQuery-Datasets zugreifen. Um diesen Zugriff zu ermöglichen, müssen Sie diesen Projekten die Dataplex-Dienstkonten mit Verwaltungssteuerungen hinzufügen.
Für Discovery fügt Dataplex den Cloud Storage-Buckets das Dataproc Metastore-Dienstkonto hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie festlegen, dass der Dataplex-Lake Ihren Dataproc Metastore-Dienst verwendet. Diese Option ist beim Erstellen des Data Lake verfügbar.
Wenn Sie einem Datensee einen Cloud Storage-Bucket mit detailliertem Zugriff hinzufügen, gewährt Dataplex über den Datensee vollständigen Zugriff auf diesen Bucket, da Dataplex-Berechtigungen auf alle Objekte im Bucket angewendet werden. Wenn Sie einen detaillierten Zugriff benötigen, wird empfohlen, die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.