Der Job Builder ist eine visuelle Benutzeroberfläche zum Erstellen und Ausführen von Dataflow-Pipelines in der Google Cloud Console, ohne Code schreiben zu müssen.
Die folgende Abbildung zeigt ein Detail der Benutzeroberfläche des Job-Builders. In dieser Abbildung erstellt der Nutzer eine Pipeline, um aus Pub/Sub in BigQuery zu lesen:
Übersicht
Der Job-Builder unterstützt das Lesen und Schreiben der folgenden Datentypen:
- Pub/Sub-Nachrichten
- BigQuery-Tabellendaten
- CSV-Dateien, JSON-Dateien und Textdateien in Cloud Storage
Sie unterstützt Pipelinetransformationen wie Filter, Join, Map, Group-by und Exlode (Array-Flatten).
Der Job-Builder kann auch Pipelines als Apache Beam-YAML-Dateien speichern. Mit diesem Feature können Sie Ihre Pipeline im Job-Builder entwerfen und dann die YAML-Datei zur Wiederverwendung in Cloud Storage oder einem Versionsverwaltungs-Repository speichern.
Betrachten Sie den Job-Builder für folgende Anwendungsfälle:
- Sie möchten schnell eine Pipeline erstellen, ohne Code schreiben zu müssen.
- Sie möchten eine Pipeline zur Wiederverwendung in YAML speichern.
- Ihre Pipeline kann mit den unterstützten Quellen, Senken und Transformationen ausgedrückt werden.
- Für Ihren Anwendungsfall gibt es keine von Google bereitgestellte Vorlage.
Neue Pipeline erstellen
So erstellen Sie eine neue Pipeline im Job-Builder:
Rufen Sie in der Google Cloud Console die Seite Jobs auf.
Klicken Sie auf
Job aus Vorlage erstellen.Klicken Sie auf Job-Builder.
Geben Sie unter Jobname einen Namen für den Job ein.
Wählen Sie entweder Batch oder Streaming aus.
Wenn Sie Streaming auswählen, wählen Sie einen Windowing-Modus aus. Geben Sie dann eine Spezifikation für das Fenster ein:
- Festes Fenster: Geben Sie eine Fenstergröße in Sekunden ein.
- Fließendes Fenster: Geben Sie eine Fenstergröße und einen Fensterzeitraum in Sekunden ein.
- Sitzungsfenster: Geben Sie eine Sitzungslücke in Sekunden ein.
Weitere Informationen zum Windowing finden Sie unter Fenster- und Windowing-Funktionen.
Als Nächstes fügen Sie der Pipeline Quellen, Transformationen und Senken hinzu, wie in den folgenden Abschnitten beschrieben.
Quelle zur Pipeline hinzufügen
Eine Pipeline muss mindestens eine Quelle haben. Anfänglich wird der Job-Builder mit einer leeren Quelle gefüllt. Führen Sie die folgenden Schritte aus, um die Quelle zu konfigurieren:
Geben Sie im Feld Name der Quelle einen Namen für die Quelle ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie in der Liste Quelltyp den Typ der Datenquelle aus.
Geben Sie je nach Quelltyp zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise BigQuery auswählen, geben Sie die Tabelle an, aus der gelesen werden soll.
Wenn Sie Pub/Sub auswählen, geben Sie ein Nachrichtenschema an. Geben Sie den Namen und den Datentyp jedes Feldes ein, das Sie aus Pub/Sub-Nachrichten lesen möchten. Die Pipeline löscht alle Felder, die nicht im Schema angegeben sind.
Optional: Bei einigen Quelltypen können Sie auf Vorschau der Quelldaten ansehen klicken, um die Quelldaten in der Vorschau anzusehen.
Klicken Sie auf Quelle hinzufügen, um der Pipeline eine weitere Quelle hinzuzufügen. Für die Kombination von Daten aus mehreren Quellen fügen Sie der Pipeline die Transformation Join
hinzu.
Transformation zur Pipeline hinzufügen
Optional können Sie der Pipeline eine oder mehrere Transformationen hinzufügen. So fügen Sie eine Transformation hinzu:
Klicken Sie auf Transformation hinzufügen.
Geben Sie im Namensfeld Transformation einen Namen für die Transformation ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie aus der Liste Transformationstyp den Transformationstyp aus.
Geben Sie je nach Transformationstyp zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise Filter (Python) auswählen, geben Sie einen Python-Ausdruck ein, der als Filter verwendet werden soll.
Wählen Sie den Eingabeschritt für die Transformation aus. Der Eingabeschritt ist die Quelle oder Transformation, deren Ausgabe die Eingabe für diese Transformation liefert.
Eine Senke zur Pipeline hinzufügen
Eine Pipeline muss mindestens eine Senke haben. Anfänglich wird der Job-Builder mit einer leeren Senke gefüllt. Führen Sie die folgenden Schritte aus, um die Senke zu konfigurieren:
Geben Sie im Feld Name der Senke einen Namen für die Senke ein oder verwenden Sie den Standardnamen. Der Name wird in der Jobgrafik angezeigt, wenn Sie den Job ausführen.
Wählen Sie in der Liste Senkentyp den Typ der Senke aus.
Geben Sie je nach Senkentyp zusätzliche Konfigurationsinformationen an. Wenn Sie beispielsweise die BigQuery-Senke auswählen, wählen Sie die BigQuery-Tabelle aus, in die Daten geschrieben werden sollen.
Wählen Sie den Eingabeschritt für die Senke aus. Der Eingabeschritt ist die Quelle oder Transformation, deren Ausgabe die Eingabe für diese Transformation liefert.
Klicken Sie auf Senke hinzufügen, um der Pipeline eine weitere Senke hinzuzufügen.
Pipeline ausführen
Führen Sie die folgenden Schritte aus, um eine Pipeline über den Job-Builder auszuführen:
Optional: Legen Sie Dataflow-Joboptionen fest. Klicken Sie zum Erweitern des Abschnitts „Dataflow-Optionen“ auf den
Erweiterungspfeil.Klicken Sie auf Job ausführen. Der Job-Builder ruft die Jobgrafik für den gesendeten Job auf. In der Jobgrafik können Sie den Status des Jobs überwachen.
Pipeline speichern
So speichern Sie eine Pipeline in Beam YAML:
Klicken Sie auf Speichern, um das Fenster YAML speichern zu öffnen.
Führen Sie eine der folgenden Aktionen aus:
- Klicken Sie zum Kopieren der YAML-Datei in die Zwischenablage auf Kopieren.
- Geben Sie zum Speichern in Cloud Storage einen Cloud Storage-Pfad ein und klicken Sie auf Speichern.
- Klicken Sie auf Herunterladen, um eine lokale Datei herunterzuladen.
Pipeline laden
Nachdem Sie eine Pipeline in Beam YAML gespeichert haben, können Sie sie wieder in den Job-Builder laden. Anschließend können Sie die Pipeline mit dem Job-Builder ändern oder ausführen.
Sie können Beam-YAML-Dateien aus Cloud Storage oder aus Text laden.
Pipeline aus Cloud Storage laden
So laden Sie eine Pipeline aus Cloud Storage:
- Klicken Sie auf Laden.
- Klicken Sie auf Aus Cloud Storage laden.
- Geben Sie im Feld YAML-Dateispeicherort den Cloud Storage-Speicherort der YAML-Datei ein oder klicken Sie auf Durchsuchen, um die Datei auszuwählen.
- Klicken Sie auf Laden.
Pipeline aus Text laden
So laden Sie eine Pipeline aus Text:
- Klicken Sie auf Laden.
- Klicken Sie auf Aus Text laden.
- Fügen Sie die YAML-Datei in das Fenster ein.
- Klicken Sie auf Laden.
Nächste Schritte
- Verwenden Sie die Dataflow-Job-Monitoring-Oberfläche.
- Weitere Informationen zu Beam YAML.