Auf dieser Seite werden die verschiedenen Möglichkeiten zum Erstellen von Pipelines für Dataflow und die Vorteile der einzelnen Methoden beschrieben.
Von Google bereitgestellte Vorlagen
Google bietet Open-Source-Vorlagen für Dutzende von vorgefertigten Dataflow-Pipelines. Sie können diese Vorlagen über dieGoogle Cloud -Konsole oder über die Befehlszeile ausführen. Einige Vorlagen unterstützen das Hinzufügen einer benutzerdefinierten Funktion (User-Defined Function, UDF), damit Sie die Daten transformieren können, bevor sie in das Ausgabeziel geschrieben werden.
Verwenden Sie eine Vorlage, wenn eine für Ihr Szenario verfügbar ist. Eine vollständige Liste finden Sie unter Von Google bereitgestellte Vorlagen.
Job-Builder
Der Job-Builder ist eine visuelle Benutzeroberfläche zum Erstellen und Ausführen von Dataflow-Pipelines in der Google Cloud Console, ohne Code schreiben zu müssen. Im Job Builder erstellen Sie eine Pipeline, indem Sie Quellen, Senken und Transformationen auswählen und sie zu einem Diagramm verbinden. Mit dem Job-Builder können Sie Ihre Pipelines auch als YAML-Dateien speichern und laden.
Betrachten Sie den Job-Builder für folgende Szenarien:
- Sie können benutzerdefinierte Pipelines erstellen, wenn eine von Google bereitgestellte Vorlage nicht zu Ihrem Szenario passt.
- Pipelines ohne Programmierung erstellen
- Pipelines mit mehreren Quellen oder Senken erstellen
- Schnelle Prototypen erstellen
Weitere Informationen finden Sie unter Job Builder – Übersicht.
Der Job-Builder unterstützt eine Teilmenge der Quellen und Senken, die in Apache Beam verfügbar sind. Wenn Sie eine benötigen, die im Job Builder nicht unterstützt wird, verwenden Sie eine von Google bereitgestellte Vorlage oder das Apache Beam SDK.
Apache Beam SDK
Dataflow-Pipelines basieren auf dem Open-Source-Apache Beam SDK. Wenn Sie das SDK zum Schreiben Ihrer Pipeline verwenden, profitieren Sie von den vollen Möglichkeiten von Apache Beam für Ihre Arbeitslasten. Pipelines können in Java, Python oder Go geschrieben werden.
Wenn Sie Ihr Szenario nicht mit einer von Google bereitgestellten Vorlage oder mit dem Job Builder umsetzen können, sollten Sie das Apache Beam SDK verwenden. Beispiel:
- Komplexere Pipelines, die den vollständigen Funktionsumfang von Apache Beam benötigen.
- Streamingpipelines, für die komplexere Strategien für den Umgang mit verspäteten Daten erforderlich sind, z. B. die erneute Verarbeitung.
Weitere Informationen finden Sie unter Apache Beam zum Erstellen von Pipelines verwenden.
Notebooks
Sie können Apache Beam-Python-Code in einem JupyterLab-Notebook ausführen. Diese Notebooks werden über Vertex AI Workbench bereitgestellt, einem Dienst, der Notebook-VMs hostet, auf denen die neuesten Data-Science- und ML-Frameworks vorinstalliert sind. Mit Notebooks müssen Sie keine Entwicklungsumgebung einrichten und können Ihren Pipelinecode schnell iterieren. Notebooks werden in einer Testumgebung ausgeführt. Sie können den Code jedoch für die Produktion exportieren.
Weitere Informationen finden Sie unter Apache Beam-Notebooks entwickeln.