Best Practices für Dataplex

Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Dataplex.

Projekt für den Lake auswählen

Berücksichtigen Sie bei der Auswahl des Projekts, in dem Ihr Lake gehostet werden soll, Folgendes: Faktoren:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter da die Daten, die sich im Data Lake befinden sollen.

  • Das Lake-Dienstkonto erfordert Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt externe Tabellen in BigQuery für Tabellen, die in Cloud Storage erkannt wurden. Dataplex verfügbaren BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket in einem Dataproc Metastore. Die Dataproc Metastore befindet sich im Data-Lake-Projekt.

Cloud Storage-Einstellungen und -Einschränkungen

  • Region: Dataplex unterstützt einzelne Regionen und Multiregionale Buckets in einigen Google Cloud-Regionen

  • Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen können zusätzliche Kosten für den Datenabruf anfallen Nearline-, Coldline- oder Archive-Daten

  • Bucket-ACL: Dataplex unterstützt Cloud Storage-Buckets mit einheitliche Zugriffskontrollen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • Anforderer bezahlt: Cloud Storage-Buckets mit dem Anforderer bezahlt aktiviert ist, nicht unterstützt.

Hinweise zu Sicherheit und Berechtigungen

Dataplex erfordert das Hinzufügen von Dataplex Dienstkonten als administratives Dienstkonto für verwaltete Buckets und Datasets.

Dataplex ermöglicht Analysten den Zugriff auf Cloud Storage-Buckets und BigQuery-Datasets für viele Projekte. Um diesen Zugriff zu ermöglichen, Dataplex erfordert das Hinzufügen des Dataplex-Dienstes Konten mit Administratorsteuerung auf diese Projekte zu übertragen.

Dataplex fügt für Discovery die Dataproc Metastore-Dienstkonto mit dem Cloud Storage Buckets. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, möchten Sie vielleicht, dass der Dataplex-Lake Ihre Dataproc Metastore-Dienst, eine Option, wenn Sie in Ihrem See.

Wenn Sie einen Cloud Storage-Bucket mit genauer Zugang zu einem See, Dataplex stellt über den Lake vollständigen Zugriff auf diesen Bucket bereit Dataplex-Berechtigungen werden an alle Objekte im Bucket. Wenn Sie einen detaillierten Zugriff benötigen, sollten Sie die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.

Nächste Schritte