Cloud Data Fusion bietet ein Dataplex Source-Plug-in. um Daten aus Dataplex-Entitäten (Tabellen) zu lesen, die sich auf Cloud Storage- oder BigQuery-Assets. Dataplex-Quelle können Sie Daten in Cloud Storage-Assets als Tabellen und Filter die Daten mit einfachen SQL-Abfragen.
Hinweise
Cloud Data Fusion-Instanz erstellen falls Sie keines haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion Version 6.6 oder höher.
Die Quelldaten müssen bereits Teil eines Dataplex sein zone und ein asset (entweder ein Cloud Storage-Bucket oder ein BigQuery-Dataset).
Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie einen Metaspeicher konfigurieren für Ihren See.
Damit Daten aus Cloud Storage-Entitäten gelesen werden können, Dataproc Metastore muss an den Lake angehängt werden.
CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff auf der Subnetzwerk, das normalerweise auf
default
festgelegt ist, oderinternal_ip_only
auffalse
Erforderliche Rollen
Um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen, bitten Sie Ihren Administrator, Ihnen folgende IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Dataplex-Entwickler (
roles/dataplex.developer
) -
Dataplex-Datenleser (
roles/dataplex.dataReader
) -
Dataproc Metastore-Metadatennutzer (
roles/metastore.metadataUser
) -
Cloud Dataplex-Dienst-Agent (
roles/dataplex.serviceAgent
) -
Dataplex-Metadatenleser (
roles/dataplex.metadataReader
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Beschränkungen
Für Cloud Storage-Assets: Dieses Plug-in unterstützt das Lesen aus CSV-Dateien. Sie unterstützt das Lesen aus den Formaten JSON, Avro, Parquet und ORC.
Für Cloud Storage-Assets: Partition Start Date und Partition Enddatum nicht zutreffend sind.
Plug-in zur Pipeline hinzufügen
Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz anzeigen, um die Instanz in Cloud Data Fusion zu öffnen. UI.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.
Plug-in konfigurieren
Nachdem Sie Ihrer Pipeline dieses Plug-in auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Quelle, um ihre Attribute zu konfigurieren.
Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Quelle
Optional: Erste Schritte mit einer Beispielpipeline
Es sind Beispielpipelines verfügbar, einschließlich einer SAP-Quelle für Dataplex-Senkenpipeline und eine Dataplex-Quelle, um BigQuery-Senkenpipeline.
Öffnen Sie die Instanz in der Cloud Data Fusion-UI, um eine Beispielpipeline zu verwenden. klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines. Ein Dialogfeld wird geöffnet, in dem Sie die zu erstellen.
Nächste Schritte
- Daten mit Cloud Data Fusion aufnehmen mit dem Dataplex-Senken-Plug-in.