Daten mit Cloud Data Fusion verarbeiten

Cloud Data Fusion bietet ein Dataplex Universal Catalog-Quell-Plug-in, mit dem Daten aus Dataplex Universal Catalog-Entitäten (Tabellen) gelesen werden können, die sich in Cloud Storage- oder BigQuery-Assets befinden. Mit dem Dataplex Universal Catalog-Quell-Plug-in können Sie Daten in Cloud Storage-Assets als Tabellen behandeln und die Daten mit SQL-Abfragen filtern.

Hinweise

  • Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion Version 6.6 oder höher ausgeführt werden.

  • Die Quelldaten müssen bereits Teil einer Zone und eines Assets (entweder ein Cloud Storage-Bucket oder ein BigQuery-Dataset) im Dataplex Universal Catalog sein.

  • Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie ein Metastore für Ihren Data Lake konfigurieren.

  • Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Data Lake angehängt sein.

  • CSV-Daten in Cloud Storage-Entitäten werden nicht unterstützt.

  • Aktivieren Sie im Dataplex Universal Catalog-Projekt den privater Google-Zugriff für das Subnetzwerk, das in der Regel auf default festgelegt ist, oder legen Sie internal_ip_only auf false fest.

Beschränkungen

  • Für Cloud Storage-Assets: Das Lesen aus CSV-Dateien wird von diesem Plug-in nicht unterstützt. Es unterstützt das Lesen aus JSON-, Avro-, Parquet- und ORC-Formaten.

  • Für Cloud Storage-Assets sind Partition Start Date (Startdatum der Partition) und Partition End Date (Enddatum der Partition) nicht anwendbar.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Plug-in zur Pipeline hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.

    Zur Seite „VM-Instanzen“

    Auf dieser Seite können Sie Ihre Instanzen verwalten.

  2. Klicken Sie auf Instanz ansehen, um Ihre Instanz in der Cloud Data Fusion-UI zu öffnen.

  3. Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie dieses Plug-in auf der Seite Studio zu Ihrer Pipeline hinzugefügt haben, klicken Sie auf die Dataplex Universal Catalog-Quelle, um ihre Eigenschaften zu konfigurieren.

Weitere Informationen zu Konfigurationen finden Sie in der Dataplex-Quelle-Referenz.

Optional: Mit einer Beispielpipeline beginnen

Es sind Beispielpipelines verfügbar, darunter eine Pipeline von einer SAP-Quelle zu einem Dataplex Universal Catalog-Ziel und eine Pipeline von einer Dataplex Universal Catalog-Quelle zu einem BigQuery-Ziel.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie Ihre Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex Universal Catalog-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.

Nächste Schritte