Cloud Data Fusion bietet ein Dataplex-Senken-Plug-in, mit dem Sie Daten in von Dataplex unterstützte Assets aufnehmen können.
Hinweise
- Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion Version 6.6 oder höher ausgeführt werden.
- Das BigQuery-Dataset oder der Cloud Storage-Bucket, in den Daten aufgenommen werden, muss zu einem Dataplex-Lake gehören.
- Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt sein.
- CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
- Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk. Dieser ist normalerweise auf
default
oderinternal_ip_only
auffalse
festgelegt.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Dataproc-Dienstkonto und das von Google verwaltete Dienstkonto (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com
) zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:
-
Dataplex-Entwickler (
roles/dataplex.developer
) -
Dataplex-Datenleser (
roles/dataplex.dataReader
) -
Nutzer von Dataproc Metastore-Metadaten (
roles/metastore.metadataUser
) -
Cloud Dataplex-Dienst-Agent (
roles/dataplex.serviceAgent
) -
Dataplex-Metadaten-Leser (
roles/dataplex.metadataReader
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Plug-in zur Pipeline hinzufügen
Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-Benutzeroberfläche zu öffnen.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Senke und klicken Sie auf Dataplex.
Plug-in konfigurieren
Nachdem Sie dieses Plug-in Ihrer Pipeline auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Senke, um die Attribute zu konfigurieren und zu speichern.
Weitere Informationen zu Konfigurationen finden Sie in der Referenz zu Dataplex-Senken.
Optional: Erste Schritte mit einer Beispielpipeline
Es sind Beispielpipelines verfügbar, einschließlich einer SAP-Quelle zu Dataplex-Senkenpipeline und einer Dataplex-Quelle zu BigQuery-Senkenpipeline.
Um eine Beispielpipeline zu verwenden, öffnen Sie die Instanz in der Cloud Data Fusion-UI, klicken auf Hub > Pipelines und wählen eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.
Pipeline ausführen
Nachdem Sie die Pipeline bereitgestellt haben, öffnen Sie sie auf der Cloud Data Fusion-Seite Studio.
Klicken Sie auf Konfigurieren> >.
Optional: Ändern Sie Executor-CPU und -Arbeitsspeicher entsprechend der Gesamtgröße der Daten und der Anzahl der in Ihrer Pipeline verwendeten Transformationen.
Klicken Sie auf Speichern.
Klicken Sie zum Starten der Datenpipeline auf Ausführen.