Datenpipeline erstellen

In dieser Kurzanleitung wird Folgendes beschrieben:

  1. Erstellen Sie eine Cloud Data Fusion-Instanz.
  2. Beispielpipeline bereitstellen, die in Ihrer Cloud Data Fusion-Instanz bereitgestellt wird Die Pipeline führt Folgendes aus:
    1. Eine JSON-Datei mit NYT-Bestseller-Daten aus Cloud Storage lesen
    2. Transformationen an der Datei ausführen, um die Daten zu analysieren und zu bereinigen
    3. Die bestbewerteten Bücher, die in der letzten Woche hinzugefügt wurden und weniger als 25 $ kosten, in BigQuery laden

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Cloud Data Fusion API aktivieren.

    Aktivieren Sie die API

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Cloud Data Fusion API aktivieren.

    Aktivieren Sie die API

Erstellen Sie eine Cloud Data Fusion-Instanz.

  1. Klicken Sie auf Instanz erstellen.

    Zur Seite „Instanzen“

  2. Geben Sie einen Instanznamen ein.
  3. Geben Sie eine Beschreibung für Ihre Instanz ein.
  4. Geben Sie die Region ein, in der die Instanz erstellt werden soll.
  5. Wählen Sie die zu verwendende Version von Cloud Data Fusion aus.
  6. Wählen Sie die Version von Cloud Data Fusion aus.
  7. Wählen Sie für Cloud Data Fusion-Version 6.2.3 und höher im Feld Autorisierung das Dataproc-Dienstkonto aus, das zum Ausführen der Cloud Data Fusion-Pipeline in Dataproc verwendet werden soll. Der Standardwert, das Compute Engine-Konto, ist bereits ausgewählt.
  8. Klicken Sie auf Erstellen. Es kann bis zu 30 Minuten dauern, bis die Instanz erstellt ist. Während Cloud Data Fusion die Instanz erstellt, wird neben dem Instanznamen auf der Seite Instanzen ein Radsymbol angezeigt, das den Fortschritt angibt. Nachdem der Vorgang abgeschlossen ist, wird es zu einem grünen Häkchen. Dies zeigt an, dass Sie die Instanz verwenden können.

Wenn Sie Cloud Data Fusion verwenden, nutzen Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-Weboberfläche.

  • In der Google Cloud Console haben Sie folgende Möglichkeiten:

    • Google Cloud Console-Projekt erstellen
    • Cloud Data Fusion-Instanzen erstellen und löschen
    • Details zur Cloud Data Fusion-Instanz ansehen
  • In der Weboberfläche von Cloud Data Fusion können Sie die Funktionen von Cloud Data Fusion auf verschiedenen Seiten wie Studio oder Handler nutzen.

So verwenden Sie die Oberfläche von Cloud Data Fusion:

  1. Öffnen Sie in der Google Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen der Instanz auf den Link Instanz aufrufen.
  3. Wechseln Sie in der Weboberfläche von Cloud Data Fusion über den linken Navigationsbereich zur gewünschten Seite.

Beispielpipeline bereitstellen

Beispielpipelines sind über den Cloud Data Fusion Hub verfügbar, mit dem Sie wiederverwendbare Cloud Data Fusion-Pipelines, -Plug-ins und Lösungen teilen können.

  1. Klicken Sie in der Weboberfläche von Cloud Data Fusion auf Hub.
  2. Klicken Sie im linken Bereich auf Pipelines.
  3. Klicken Sie auf die Pipeline Cloud Data Fusion-Quickstart.
  4. Klicken Sie auf Erstellen.
  5. Klicken Sie im Konfigurationsbereich für Cloud Data Fusion-Kurzanleitung auf Finish (Fertigstellen).
  6. Klicken Sie auf Pipeline anpassen.

    Auf der Seite Studio wird eine visuelle Darstellung Ihrer Pipeline angezeigt. Dabei handelt es sich um eine grafische Benutzeroberfläche für die Entwicklung von Pipelines für die Datenintegration. Auf der linken Seite sind die Pipeline-Plug-ins aufgelistet und Ihre Pipeline wird im Hauptbereich angezeigt. Sie können Ihre Pipeline genauer untersuchen. Halten Sie dazu den Mauszeiger über jeden Pipelineknoten und klicken Sie auf Eigenschaften. Im Eigenschaftenmenü für jeden Knoten können Sie die mit dem Knoten verknüpften Objekte und Vorgänge anzeigen.

  7. Klicken Sie im Menü oben rechts auf Bereitstellen. Mit diesem Schritt wird die Pipeline an Cloud Data Fusion gesendet. Im nächsten Abschnitt dieser Kurzanleitung führen Sie die Pipeline aus.

Stellen Sie die Pipeline bereit.

Pipeline anzeigen

Die bereitgestellte Pipeline wird in der Ansicht der Pipelinedetails angezeigt. Hier können Sie Folgendes tun:

  • Sehen Sie sich die Struktur und Konfiguration der Pipeline an.
  • Pipeline manuell ausführen oder einen Zeitplan bzw. Trigger einrichten
  • Sehen Sie sich eine Zusammenfassung der bisherigen Ausführungen der Pipeline an, einschließlich Ausführungszeiten, Logs und Messwerte.

Kopieren Sie das Dienstkonto.

Pipeline ausführen

Klicken Sie in der Ansicht „Pipelinedetails“ auf Ausführen, um die Pipeline auszuführen.

Pipeline ausführen

Beim Ausführen einer Pipeline führt Cloud Data Fusion folgende Schritte aus:

  1. Stellt einen sitzungsspezifischen Dataproc-Cluster bereit
  2. Führt die Pipeline im Cluster mit Apache Spark aus
  3. Löscht den Cluster

Ergebnisse aufrufen

Nach einigen Minuten ist die Pipeline abgeschlossen. Der Pipelinestatus ändert sich in Erfolgreich und die Anzahl der von jedem Knoten verarbeiteten Datensätze wird angezeigt.

Pipelineausführung abgeschlossen

  1. Rufen Sie die BigQuery-Weboberfläche auf.
  2. Wenn Sie ein Beispiel der Ergebnisse ansehen möchten, rufen Sie in Ihrem Projekt das Dataset DataFusionQuickstart auf, klicken Sie auf die Tabelle top_rated_inexpensive und führen Sie dann eine einfache Abfrage aus. Beispiel:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Ersetzen Sie PROJECT_ID durch Ihre Projekt-ID.

Ergebnisse ansehen

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.

  1. Löschen Sie das BigQuery-Dataset, in das Ihre Pipeline in dieser Kurzanleitung geschrieben hat.
  2. Löschen Sie die Cloud Data Fusion-Instanz.

  3. Optional: Löschen Sie das Projekt.

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte