Daten mit Cloud Data Fusion aufnehmen

Cloud Data Fusion bietet ein Dataplex-Senken-Plug-in, mit dem Sie Daten in von Dataplex unterstützte Assets aufnehmen können.

Hinweise

  • Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion Version 6.6 oder höher ausgeführt werden.
  • Das BigQuery-Dataset oder der Cloud Storage-Bucket, in den Daten aufgenommen werden, muss zu einem Dataplex-Lake gehören.
  • Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt sein.
  • CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
  • Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk. Dieser ist normalerweise auf default oder internal_ip_only auf false festgelegt.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Dataproc-Dienstkonto und das von Google verwaltete Dienstkonto (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com) zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Plug-in zur Pipeline hinzufügen

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

    Auf dieser Seite können Sie Ihre Instanzen verwalten.

  2. Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-Benutzeroberfläche zu öffnen.

  3. Rufen Sie die Seite Studio auf, maximieren Sie das Menü Senke und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie dieses Plug-in Ihrer Pipeline auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Senke, um die Attribute zu konfigurieren und zu speichern.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zu Dataplex-Senken.

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, einschließlich einer SAP-Quelle zu Dataplex-Senkenpipeline und einer Dataplex-Quelle zu BigQuery-Senkenpipeline.

Um eine Beispielpipeline zu verwenden, öffnen Sie die Instanz in der Cloud Data Fusion-UI, klicken auf Hub > Pipelines und wählen eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.

Pipeline ausführen

  1. Nachdem Sie die Pipeline bereitgestellt haben, öffnen Sie sie auf der Cloud Data Fusion-Seite Studio.

  2. Klicken Sie auf Konfigurieren> >.

  3. Optional: Ändern Sie Executor-CPU und -Arbeitsspeicher entsprechend der Gesamtgröße der Daten und der Anzahl der in Ihrer Pipeline verwendeten Transformationen.

  4. Klicken Sie auf Speichern.

  5. Klicken Sie zum Starten der Datenpipeline auf Ausführen.

Nächste Schritte