Daten mit Cloud Data Fusion aufnehmen

Cloud Data Fusion bietet ein Dataplex-Senke-Plug-in zum Aufnehmen von Daten in alle von Dataplex unterstützten Assets.

Vorbereitung

  • Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion-Version 6.6 oder höher ausgeführt werden.
  • Das BigQuery-Dataset oder der Cloud Storage-Bucket, in den Daten aufgenommen werden, muss Teil eines Dataplex-Lakes sein.
  • Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt werden.
  • CSV-Daten in Cloud Storage-Entitäten werden nicht unterstützt.
  • Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk, das normalerweise auf default oder internal_ip_only auf false festgelegt ist.

Erforderliche Rollen

Damit Sie die erforderlichen Berechtigungen zum Verwalten von Rollen erhalten, müssen Sie Ihren Administrator bitten, Ihnen die folgenden IAM-Rollen für das Dataproc-Dienstkonto und das von Google verwaltete Dienstkonto (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com) zu gewähren:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Plug-in der Pipeline hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.

    Zur Seite „VM-Instanzen“

    Auf dieser Seite können Sie Ihre Instanzen verwalten.

  2. Klicken Sie auf Instanz ansehen, um die Instanz in der Cloud Data Fusion-UI zu öffnen.

  3. Rufen Sie die Seite Studio auf, maximieren Sie das Menü Senke und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie dieses Plug-in auf der Seite Studio in Ihre Pipeline eingefügt haben, klicken Sie auf die Dataplex-Senke, um ihre Attribute zu konfigurieren und zu speichern.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zu Dataplex-Senke.

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, darunter eine SAP-Quelle für Dataplex-Senkenpipeline und eine Dataplex-Quelle für BigQuery-Senkenpipeline.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie Ihre Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.

Pipeline ausführen

  1. Öffnen Sie die Pipeline nach der Bereitstellung auf der Seite Studio.

  2. Klicken Sie auf Konfigurieren > Ressourcen.

  3. Optional: Ändern Sie die Executor-CPU und den Arbeitsspeicher anhand der Gesamtdatengröße und der Anzahl der in Ihrer Pipeline verwendeten Transformationen.

  4. Klicken Sie auf Speichern.

  5. Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Nächste Schritte