Daten mit Cloud Data Fusion aufnehmen

Cloud Data Fusion bietet ein Dataplex-Senken-Plug-in. zum Aufnehmen von Daten in eines der von Dataplex unterstützten Assets.

Hinweis

  • Erstellen Sie Cloud Data Fusion-Instanz, wenn Sie keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion Version 6.6 oder .
  • BigQuery-Dataset oder Cloud Storage-Bucket in die Daten aufgenommen werden, muss Teil eines Dataplex-Lakes sein.
  • Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore mit dem Data Lake verbunden sein.
  • CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
  • Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff für das Subnetzwerk, das normalerweise auf default festgelegt ist, oder internal_ip_only bis false.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agenten und den Cloud Data Fusion-Dienst-Agenten (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Fügen Sie das Plug-in Ihrer Pipeline hinzu.

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.

    Zur Seite „VM-Instanzen“

    Auf dieser Seite können Sie Ihre Instanzen verwalten.

  2. Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-Benutzeroberfläche zu öffnen.

  3. Rufen Sie die Seite Studio auf, maximieren Sie das Menü Senke und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie Ihrer Pipeline dieses Plug-in auf der Seite Studio hinzugefügt haben, klicken Sie auf das Dataplex-Senke, um ihre Attribute zu konfigurieren und zu speichern.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Senke

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, darunter eine Pipeline von einer SAP-Quelle zu einer Dataplex-Senke und eine Pipeline von einer Dataplex-Quelle zu einer BigQuery-Senke.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie Ihre Instanz in der Cloud Data Fusion-Benutzeroberfläche, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die zu erstellen.

Pipeline ausführen

  1. Öffnen Sie die Pipeline nach der Bereitstellung auf der Seite Studio von Cloud Data Fusion.

  2. Klicken Sie auf Konfigurieren > Ressourcen.

  3. Optional: Ändern Sie die Executor-CPU und den Arbeitsspeicher entsprechend der Gesamtdatengröße und der Anzahl der in der Pipeline verwendeten Transformationen.

  4. Klicken Sie auf Speichern.

  5. Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Nächste Schritte