Der Job-Builder ist eine visuelle Benutzeroberfläche zum Erstellen und Ausführen von Dataflow-Pipelines in der Google Cloud Console, ohne Code schreiben zu müssen.
Das folgende Bild zeigt ein Detail der Benutzeroberfläche des Job-Builders. Auf diesem Bild erstellt der Nutzer eine Pipeline, um Daten aus Pub/Sub in BigQuery zu lesen:
Übersicht
Der Job-Builder unterstützt das Lesen und Schreiben der folgenden Datentypen:
- Pub/Sub-Nachrichten
- BigQuery-Tabellendaten
- CSV-Dateien, JSON-Dateien und Textdateien in Cloud Storage
Es unterstützt Pipelinetransformationen wie „Filter“, „Join“, „Map“, „Group By“ und „Explode“ (Array-Flattening).
Der Job-Builder kann auch Pipelines als Apache Beam-YAML-Dateien speichern. Mit dieser Funktion können Sie Ihre Pipeline im Job-Builder entwerfen und die YAML-Datei dann zur Wiederverwendung in Cloud Storage oder einem Repository für die Versionskontrolle speichern.
Betrachten Sie den Job-Builder für folgende Anwendungsfälle:
- Sie möchten schnell eine Pipeline erstellen, ohne Code schreiben zu müssen.
- Sie möchten eine Pipeline zur Wiederverwendung als YAML-Datei speichern.
- Ihre Pipeline kann mit den unterstützten Quellen, Senken und Transformationen ausgedrückt werden.
- Es gibt keine von Google bereitgestellte Vorlage, die zu Ihrem Anwendungsfall passt.
Neue Pipeline erstellen
So erstellen Sie eine neue Pipeline im Job-Builder:
Rufen Sie die Seite Jobs in der Google Cloud Console auf.
Klicken Sie auf
Job aus Builder erstellen.Geben Sie unter Jobname einen Namen für den Job ein.
Wählen Sie entweder Batch oder Streaming aus.
Wenn Sie Streaming auswählen, wählen Sie einen Fenstermodus aus. Geben Sie dann eine Spezifikation für das Fenster ein:
- Festes Fenster: Geben Sie eine Fenstergröße in Sekunden ein.
- Gleitendes Fenster: Geben Sie eine Fenstergröße und eine Fensterperiode in Sekunden ein.
- Sitzungsfenster: Geben Sie eine Sitzungslücke in Sekunden ein.
Weitere Informationen zu Fenstern finden Sie unter Fenster und Fensterfunktionen.
Fügen Sie der Pipeline als Nächstes Quellen, Transformationen und Ziele hinzu, wie in den folgenden Abschnitten beschrieben.
Pipeline eine Quelle hinzufügen
Eine Pipeline muss mindestens eine Quelle haben. Der Job-Builder wird anfangs mit einer leeren Quelle ausgefüllt. So konfigurieren Sie die Quelle:
Geben Sie im Feld Quellname einen Namen für die Quelle ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie in der Liste Quelltyp den Typ der Datenquelle aus.
Geben Sie je nach Quelltyp zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise BigQuery auswählen, geben Sie die Tabelle an, aus der gelesen werden soll.
Wenn Sie „Pub/Sub“ auswählen, geben Sie ein Nachrichtenschema an. Geben Sie den Namen und den Datentyp jedes Felds ein, das aus Pub/Sub-Nachrichten gelesen werden soll. Die Pipeline verwirft alle Felder, die nicht im Schema angegeben sind.
Optional: Bei einigen Quelltypen können Sie auf Vorschau der Quelldaten klicken, um eine Vorschau der Quelldaten aufzurufen.
Wenn Sie der Pipeline eine weitere Quelle hinzufügen möchten, klicken Sie auf Quelle hinzufügen. Wenn Sie Daten aus mehreren Quellen kombinieren möchten, fügen Sie Ihrer Pipeline die Transformation Join
hinzu.
Pipeline eine Transformation hinzufügen
Optional können Sie der Pipeline eine oder mehrere Transformationen hinzufügen. So fügen Sie eine Transformation hinzu:
Klicken Sie auf Transformation hinzufügen.
Geben Sie im Feld Transformation einen Namen für die Transformation ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie in der Liste Transformtyp den gewünschten Transformtyp aus.
Geben Sie je nach Transformationstyp zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise Filter (Python) auswählen, geben Sie einen Python-Ausdruck als Filter ein.
Wählen Sie den Eingabeschritt für die Transformation aus. Der Eingabeschritt ist die Quelle oder Transformation, deren Ausgabe die Eingabe für diese Transformation liefert.
Senke zur Pipeline hinzufügen
Eine Pipeline muss mindestens einen Abfluss haben. Der Job-Builder ist anfangs mit einem leeren Sink gefüllt. So konfigurieren Sie die Senke:
Geben Sie im Feld Name der Senke einen Namen für die Senke ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie in der Liste Sink-Typ den Typ des Sinks aus.
Geben Sie je nach Typ der Senke zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise die BigQuery-Senke auswählen, wählen Sie die BigQuery-Tabelle aus, in die geschrieben werden soll.
Wählen Sie den Eingabeschritt für die Senke aus. Der Eingabeschritt ist die Quelle oder Transformation, deren Ausgabe die Eingabe für diese Transformation liefert.
Wenn Sie der Pipeline einen weiteren Abfluss hinzufügen möchten, klicken Sie auf Abfluss hinzufügen.
Pipeline ausführen
Führen Sie die folgenden Schritte aus, um eine Pipeline über den Job-Builder auszuführen:
Optional: Legen Sie Dataflow-Joboptionen fest. Klicken Sie zum Erweitern des Abschnitts „Dataflow-Optionen“ auf den
Erweiterungspfeil.Klicken Sie auf Job ausführen. Der Job-Builder ruft die Jobgrafik für den gesendeten Job auf. Mit der Jobgrafik können Sie den Status des Jobs beobachten.
Pipeline speichern
So speichern Sie eine Pipeline in Beam YAML:
Klicken Sie auf Speichern, um das Fenster YAML-Datei speichern zu öffnen.
Führen Sie eine der folgenden Aktionen aus:
- Klicken Sie auf Kopieren, um den YAML-Code in die Zwischenablage zu kopieren.
- Wenn Sie die Datei in Cloud Storage speichern möchten, geben Sie einen Cloud Storage-Pfad ein und klicken Sie auf Speichern.
- Klicken Sie auf Herunterladen, um eine lokale Datei herunterzuladen.
Pipeline laden
Nachdem Sie eine Pipeline in Beam YAML gespeichert haben, können Sie sie wieder in den Job-Builder laden. Anschließend können Sie die Pipeline mit dem Job-Builder ändern oder ausführen.
Sie können Beam-YAML-Dateien aus Cloud Storage oder aus Text laden.
Pipeline aus Cloud Storage laden
So laden Sie eine Pipeline aus Cloud Storage:
- Klicken Sie auf Laden.
- Klicken Sie auf Aus Cloud Storage laden.
- Geben Sie im Feld YAML-Dateispeicherort den Cloud Storage-Speicherort der YAML-Datei ein oder klicken Sie auf Durchsuchen, um die Datei auszuwählen.
- Klicken Sie auf Laden.
Pipeline aus Text laden
So laden Sie eine Pipeline aus Text:
- Klicken Sie auf Laden.
- Klicken Sie auf Aus Text laden.
- Fügen Sie die YAML-Datei in das Fenster ein.
- Klicken Sie auf Laden.
Pipeline vor dem Starten validieren
Bei Pipelines mit komplexer Konfiguration, z. B. mit Python-Filtern und SQL-Ausdrücken, kann es hilfreich sein, die Pipelinekonfiguration vor dem Start auf Syntaxfehler zu prüfen. So prüfen Sie die Pipelinesyntax:
- Klicken Sie auf Validieren, um Cloud Shell zu öffnen und den Validierungsservice zu starten.
- Klicken Sie auf Überprüfung starten.
- Wenn bei der Validierung ein Fehler gefunden wird, wird ein rotes Ausrufezeichen angezeigt.
- Beheben Sie alle erkannten Fehler und klicken Sie auf Überprüfen, um die Korrekturen zu bestätigen. Wenn kein Fehler gefunden wird, wird ein grünes Häkchen angezeigt.