Cloud Data Fusion bietet ein Dataplex-Quell-Plug-in, mit dem Daten aus Dataplex-Entitäten (Tabellen) in Cloud Storage- oder BigQuery-Assets gelesen werden können. Mit dem Dataplex Source-Plug-in können Sie Daten in Cloud Storage-Assets als Tabellen behandeln und mit SQL-Abfragen filtern.
Hinweis
Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die Cloud Data Fusion Version 6.6 oder höher ausführen.
Die Quelldaten müssen bereits zu einer Dataplex-Zone und einem Asset gehören (entweder einem Cloud Storage-Bucket oder einem BigQuery-Dataset).
Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie einen Metastore für Ihren Data Lake konfigurieren.
Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore mit dem Data Lake verbunden sein.
CSV-Daten in Cloud Storage-Entitäten werden nicht unterstützt.
Aktivieren Sie im Dataplex-Projekt den privaten Google-Zugriff für das Subnetz, das normalerweise auf
default
festgelegt ist, oder legen Sieinternal_ip_only
auffalse
fest.
Beschränkungen
Für Cloud Storage-Assets: Dieses Plug-in unterstützt das Lesen aus CSV-Dateien nicht. Es unterstützt das Lesen aus JSON-, Avro-, Parquet- und ORC-Formaten.
Für Cloud Storage-Assets: Partition Start Date (Partitionsstartdatum) und Partition End Date (Partitionsenddatum) sind nicht zutreffend.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:
-
Dataplex-Entwickler (
roles/dataplex.developer
) -
Dataplex-Datenleser (
roles/dataplex.dataReader
) -
Nutzer von Dataproc Metastore-Metadaten (
roles/metastore.metadataUser
) -
Cloud Dataplex-Dienst-Agent (
roles/dataplex.serviceAgent
) -
Dataplex-Metadatenleser (
roles/dataplex.metadataReader
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Fügen Sie das Plug-in Ihrer Pipeline hinzu.
Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.
Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-Benutzeroberfläche zu öffnen.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.
Plug-in konfigurieren
Nachdem Sie dieses Plug-in Ihrer Pipeline auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Quelle, um ihre Eigenschaften zu konfigurieren.
Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Quelle.
Optional: Erste Schritte mit einer Beispielpipeline
Es sind Beispielpipelines verfügbar, darunter eine Pipeline von einer SAP-Quelle zu einer Dataplex-Senke und eine Pipeline von einer Dataplex-Quelle zu einer BigQuery-Senke.
Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie Ihre Instanz in der Cloud Data Fusion-Benutzeroberfläche, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Es wird ein Dialogfeld geöffnet, in dem Sie die Pipeline erstellen können.
Nächste Schritte
- Daten mit Cloud Data Fusion aufnehmen, indem Sie das Dataplex-Sink-Plug-in verwenden.