Einführung in SQL-Workflows

In diesem Dokument wird die Architektur und Ausführung von SQL-Workflows in Dataform erläutert.

Sie können Dataform verwenden, um SQL-Workflows zu entwickeln, zu testen und zur Versionsverwaltung zu verwenden. Diese können Sie in BigQuery ausführen, um Daten für Analysezwecke zu transformieren. Sie können SQL-Workflows mit Dataform Core, mit SQLX-Dateien und optional mit JavaScript-Dateien oder mit JavaScript entwickeln.

Ein SQL-Workflow kann aus den folgenden Objekten bestehen:

Datenquellendeklarationen
Angaben zu BigQuery-Datenquellen, anhand derer Sie in Dataform-Tabellendefinitionen und SQL-Vorgängen darauf verweisen können.
Tabellen
Tabellen, die Sie in Dataform basierend auf den deklarierten Datenquellen oder anderen Tabellen in Ihrem SQL-Workflow erstellen. Dataform unterstützt die folgenden Tabellentypen: Tabelle, inkrementelle Tabelle, Ansicht und materialisierte Ansicht.
Assertions
Datenqualitätstestabfragen, mit denen Sie Tabellendaten validieren können. Dataform führt bei jeder Aktualisierung Ihres SQL-Workflows Assertions aus und benachrichtigt Sie, wenn Assertions fehlschlagen.
Benutzerdefinierte SQL-Vorgänge
SQL-Anweisungen, die Dataform unverändert in BigQuery ausführt, ohne Änderungen.
Umfasst
JavaScript-Dateien mit Definitionen von Variablen und Funktionen, die Sie in Ihrem SQL-Workflow wiederverwenden können.

Visualisierung eines SQL-Workflows

Sie können Ihren SQL-Workflow in Form eines gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) visualisieren. Der DAG zeigt alle Objekte des SQL-Workflows an, die in Ihrem Arbeitsbereich definiert sind, und die Beziehungen zwischen ihnen. Sie können heran- und herauszoomen und per Drag-and-drop im DAG navigieren. Wenn in Ihrem SQL-Workflow Kompilierungsfehler auftreten, zeigt Dataform anstelle des DAG eine Fehlermeldung an.

Klicken Sie in Ihrem Arbeitsbereich auf Kompiliertes Diagramm, um den DAG Ihres SQL-Workflows anzusehen.

Ausführung eines SQL-Workflows

In Ihrem Entwicklungsarbeitsbereich können Sie die Ausführung des gesamten SQL-Workflows, einer Reihe von Aktionen oder einer Auswahl von Tags manuell auslösen.

Sie können Ausführungen mit Releasekonfigurationen und Workflowkonfigurationen von Dataform planen. Erstellen Sie zuerst eine Releasekonfiguration, um Kompilierungsergebnisse Ihres Repositorys zu erstellen. Erstellen Sie dann eine Workflowkonfiguration, wählen Sie eine Releasekonfiguration und dann die auszuführenden SQL-Workflowaktionen aus und legen Sie den Ausführungszeitplan fest.

Alternativ können Sie Ausführungen entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen.

Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für alle Analysezwecke in BigQuery verwenden.

Optionen für die Ausführungskonfiguration

Wenn Sie eine bestimmte Gruppe von SQL-Workflowobjekten ausführen möchten, können Sie den ausgewählten Dateien Dataform-Ausführungs-Tags hinzufügen. Sie können dann nur die Dateien mit einem ausgewählten Tag ausführen, wenn Sie die Ausführung manuell auslösen.

Standardmäßig führt Dataform Ihren SQL-Workflow mit den in der Datei dataform.json definierten Ausführungseinstellungen aus. Sie können diese Ausführungseinstellungen mit Kompilierungsüberschreibungen überschreiben.

Mit Überschreibungen von Arbeitsbereichskompilierungen können Sie Arbeitsbereiche in isolierte Ausführungsumgebungen umwandeln. Wenn Sie also die Ausführung in einem Arbeitsbereich manuell auslösen, führt Dataform die Ausgabe an einem isolierten Speicherort in BigQuery aus.

Wenn Sie ein einzelnes Kompilierungsergebnis mit Kompilierungsüberschreibungen erstellen und ausführen möchten, können Sie Anfragen mit der Dataform API übergeben.

Mit Releasekonfigurationen können Sie Kompilierungsüberschreibungen für Ihr gesamtes Repository konfigurieren und festlegen, wie häufig Kompilierungsergebnisse mit den angewendeten Einstellungen erstellt werden.

Weitere Informationen zum Konfigurieren der Kompilierung und des Codelebenszyklus in Dataform finden Sie unter Einführung in den Codelebenszyklus in Dataform.

Nächste Schritte