Datenpipeline erstellen

In dieser Kurzanleitung erfahren Sie, wie Sie Folgendes tun:

  1. Erstellen Sie eine Cloud Data Fusion-Instanz.
  2. Beispielpipeline bereitstellen, die in Ihrer Cloud Data Fusion-Instanz bereitgestellt wird Die Pipeline führt Folgendes aus:
    1. Eine JSON-Datei mit NYT-Bestseller-Daten aus Cloud Storage lesen
    2. Transformationen an der Datei ausführen, um die Daten zu analysieren und zu bereinigen
    3. Die bestbewerteten Bücher, die in der letzten Woche hinzugefügt wurden und weniger als 25 $ kosten, in BigQuery laden

Hinweis

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Enable the API

Erstellen Sie eine Cloud Data Fusion-Instanz.

  1. Klicken Sie auf Instanz erstellen.

    Zur Seite „Instanzen“

  2. Geben Sie einen Instanznamen ein.
  3. Geben Sie eine Beschreibung für Ihre Instanz ein.
  4. Geben Sie die Region ein, in der die Instanz erstellt werden soll.
  5. Wählen Sie die zu verwendende Cloud Data Fusion-Version aus.
  6. Wählen Sie die Version von Cloud Data Fusion aus.
  7. Ab Cloud Data Fusion-Version 6.2.3 müssen Sie in der Authorization die Option Dataproc-Dienstkonto aus. zum Ausführen Ihrer Cloud Data Fusion-Pipeline in Dataproc nutzen. Der Standardwert, das Compute Engine-Konto, ist bereits ausgewählt.
  8. Klicken Sie auf Erstellen. Es kann bis zu 30 Minuten dauern, bis die Instanz erstellt ist. Während Cloud Data Fusion die Instanz erstellt, wird neben dem Instanznamen auf der Seite Instanzen ein Radsymbol angezeigt, das den Fortschritt angibt. Nachdem der Vorgang abgeschlossen ist, wird es zu einem grünen Häkchen. Dies zeigt an, dass Sie die Instanz verwenden können.

Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Google Cloud Console als auch die separate Weboberfläche von Cloud Data Fusion.

  • In der Google Cloud Console haben Sie folgende Möglichkeiten:

    • Google Cloud Console-Projekt erstellen
    • Cloud Data Fusion-Instanzen erstellen und löschen
    • Details zur Cloud Data Fusion-Instanz aufrufen
  • In der Cloud Data Fusion-Weboberfläche können Sie die verschiedenen Seiten wie Studio oder Wrangler nutzen, um die Funktionen von Cloud Data Fusion zu nutzen.

So navigieren Sie in der Cloud Data Fusion-Oberfläche:

  1. Öffnen Sie in der Google Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen der Instanz auf den Link Instanz aufrufen.
  3. Rufen Sie in der Weboberfläche von Cloud Data Fusion über den linken Navigationsbereich die gewünschte Seite auf.

Beispielpipeline bereitstellen

Beispielpipelines sind über den Cloud Data Fusion Hub verfügbar. mit der Sie wiederverwendbare Cloud Data Fusion-Pipelines, Plug-ins, und Lösungen.

  1. Klicken Sie in der Weboberfläche von Cloud Data Fusion auf Hub.
  2. Klicken Sie im linken Bereich auf Pipelines.
  3. Klicken Sie auf die Pipeline Cloud Data Fusion-Quickstart.
  4. Klicken Sie auf Erstellen.
  5. Klicken Sie im Cloud Data Fusion-Quickstart-Konfigurationsbereich auf Fertigstellen.
  6. Klicken Sie auf Pipeline anpassen.

    Eine visuelle Darstellung Ihrer Pipeline wird auf der Seite Studio angezeigt. Dies ist eine grafische Benutzeroberfläche zur Entwicklung von Pipelines zur Datenintegration. Auf der linken Seite sind die Pipeline-Plug-ins aufgelistet und Ihre Pipeline wird im Hauptbereich angezeigt. Sie können Ihre Pipeline untersuchen, indem Sie Bewegen Sie den Mauszeiger auf die einzelnen Pipelineknoten und klicken Sie auf Attribute. Über das Menü „Eigenschaften“ für jeden Knoten können Sie die mit dem Knoten verknüpften Objekte und Vorgänge aufrufen.

  7. Klicken Sie im Menü oben rechts auf Bereitstellen. Dadurch wird die Pipeline an Cloud Data Fusion gesendet. Im nächsten Abschnitt dieser Kurzanleitung führen Sie die Pipeline aus.

Stellen Sie die Pipeline bereit.

Pipeline anzeigen

Die bereitgestellte Pipeline wird in der Ansicht der Pipelinedetails angezeigt. Hier können Sie Folgendes tun:

  • Struktur und Konfiguration der Pipeline ansehen
  • Pipeline manuell ausführen oder einen Zeitplan bzw. Trigger einrichten
  • Zusammenfassung der bisherigen Ausführungen der Pipeline anzeigen, einschließlich Ausführungszeiten, Logs und Messwerte

Kopieren Sie das Dienstkonto.

Pipeline ausführen

Klicken Sie in der Ansicht „Pipelinedetails“ auf Ausführen, um die Pipeline auszuführen.

Pipeline ausführen

Beim Ausführen einer Pipeline führt Cloud Data Fusion die folgenden Schritte aus:

  1. Stellt einen sitzungsspezifischen Dataproc-Cluster bereit
  2. Führt die Pipeline mit Apache Spark im Cluster aus
  3. Löscht den Cluster

Ergebnisse aufrufen

Nach einigen Minuten ist die Pipeline abgeschlossen. Der Pipelinestatus ändert sich in Erfolgreich und die Anzahl der von jedem Knoten verarbeiteten Datensätze wird angezeigt.

Pipelineausführung abgeschlossen

  1. Rufen Sie die BigQuery-Weboberfläche auf.
  2. Wenn Sie sich eine Beispieldatenmenge ansehen möchten, rufen Sie das Dataset DataFusionQuickstart in Ihrem Projekt auf, klicken Sie auf die Tabelle top_rated_inexpensive und führen Sie eine einfache Abfrage aus. Beispiel:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Ersetzen Sie PROJECT_ID durch Ihre Projekt-ID.

Ergebnisse ansehen

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. BigQuery-Dataset löschen in die Ihre Pipeline in diesem Schnellstart geschrieben hat.
  2. Löschen Sie die Cloud Data Fusion-Instanz.

  3. Optional: Löschen Sie das Projekt.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte