Erste Schritte mit Dataflow

Der Dataflow-Dienst führt Pipelines aus, die mit dem Apache Beam SDK definiert werden. Für viele Anwendungsfälle müssen Sie mit dem SDK jedoch keinen Code schreiben, da Dataflow mehrere No-Code- und Low-Code-Optionen bietet.

  • Vorlagen Dataflow bietet vorgefertigte Vorlagen zum Übertragen von Daten von einem Produkt in ein anderes. Sie können beispielsweise eine Vorlage verwenden, um Daten von Pub/Sub nach BigQuery zu verschieben.

  • Job-Builder Der Job Builder ist eine visuelle Benutzeroberfläche zum Erstellen von Dataflow-Pipelines in derGoogle Cloud -Konsole. Es unterstützt eine Teilmenge von Apache Beam-Quellen und ‑Senken sowie Transformationen wie Joins, Python-Funktionen und SQL-Abfragen. Wir empfehlen den Job Builder für einfache Anwendungsfälle wie die Datenübertragung.

  • Schlüsselfertige Transformationen für maschinelles Lernen: Für Pipelines für maschinelles Lernen (ML) bietet Dataflow sofort einsatzbereite Transformationen, für deren Konfiguration nur minimaler Code erforderlich ist. Als Ausgangspunkt können Sie ein Beispiel-Notebook für maschinelles Lernen in Google Colab ausführen. Weitere Informationen finden Sie in der Übersicht zu Dataflow ML.

  • Apache Beam SDK Wenn Sie alle Funktionen von Apache Beam nutzen möchten, verwenden Sie das SDK, um eine benutzerdefinierte Pipeline in Python, Java oder Go zu schreiben.

Die folgende Tabelle enthält einige gängige Beispiele, die Ihnen bei der Entscheidung helfen können.

Meine Auswahl Empfohlene Vorgehensweise
Daten ohne benutzerdefinierte Logik von einer Quelle in eine Senke verschieben.

Job-Builder oder Vorlage

Wir empfehlen, mit dem Job-Builder zu beginnen. Wenn der Job-Builder Ihren Anwendungsfall nicht unterstützt, sehen Sie nach, ob es eine Vorlage dafür gibt.

Daten von einer Quelle zu einem Ziel verschieben und benutzerdefinierte Logik mit Python-Funktionen oder SQL anwenden. Job Builder
Ein ML-Modell in meiner Pipeline verwenden oder meine Daten für das Training oder die Inferenz vorbereiten Dataflow ML schlüsselfertige Transformationen
Sie schreiben eine Pipeline, für die erweiterte Apache Beam-Funktionen erforderlich sind. Apache Beam SDK für Java, Python oder Go

Nächste Schritte