In diesem Dokument erfahren Sie mehr über die Architektur und Ausführung von SQL-Workflows in Dataform.
Mit Dataform können Sie SQL-Workflows entwickeln, testen und einer Versionsverwaltung unterziehen, die Sie in BigQuery ausführen können, um Daten zu Analysezwecken zu transformieren. Sie können SQL-Workflows mit Dataform Core, mit SQLX-Dateien und optional mit JavaScript-Dateien oder mit JavaScript entwickeln.
Ein SQL-Workflow kann aus den folgenden Objekten bestehen:
- Deklarationen für Datenquellen
- Deklarationen von BigQuery-Datenquellen, mit denen Sie auf diese Datenquellen in Dataform-Tabellendefinitionen und SQL-Vorgängen verweisen können.
- Tabellen
- Tabellen, die Sie in Dataform auf Grundlage der deklarierten Datenquellen oder anderer Tabellen in Ihrem SQL-Workflow erstellen. Dataform unterstützt die folgenden Tabellentypen: Tabelle, inkrementelle Tabelle, Ansicht und materialisierte Ansicht.
- Behauptungen
- Abfragen zur Datenqualitätsprüfung, mit denen Sie Tabellendaten validieren können. Dataform führt jedes Mal, wenn der SQL-Workflow aktualisiert wird, Prüfungen durch und benachrichtigt Sie, wenn Prüfungen fehlschlagen.
- Benutzerdefinierte SQL-Vorgänge
- SQL-Anweisungen, die von Dataform in BigQuery unverändert ausgeführt werden.
- Umfasst
- JavaScript-Dateien mit Definitionen von Variablen und Funktionen, die Sie in Ihrem SQL-Workflow wiederverwenden können.
Visualisierung eines SQL-Workflows
Sie können sich Ihren SQL-Workflow in Form eines gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) ansehen. Der DAG enthält alle Objekte des in Ihrem Arbeitsbereich definierten SQL-Workflows und die Beziehungen zwischen ihnen. Sie können heran- und herauszoomen und den DAG per Drag-and-drop bearbeiten. Wenn Ihr SQL-Workflow Kompilierungsfehler enthält, wird in Dataform anstelle des DAG eine Fehlermeldung angezeigt.
Wenn Sie den DAG Ihres SQL-Workflows aufrufen möchten, klicken Sie in Ihrem Arbeitsbereich auf Kompiliertes Diagramm.
Ausführung eines SQL-Workflows
In Ihrem Entwicklungsbereich können Sie die Ausführung des gesamten SQL-Workflows, einer Auswahl von Aktionen oder einer Auswahl von Tags manuell auslösen.
Sie können Ausführungen mit Dataform-Releasekonfigurationen und Workflowkonfigurationen planen. Erstellen Sie zuerst eine Releasekonfiguration, um Kompilierungsergebnisse Ihres Repositorys zu erstellen. Erstellen Sie dann eine Workflowkonfiguration, wählen Sie eine Release-Konfiguration aus, wählen Sie die SQL-Workflowaktionen aus, die Sie ausführen möchten, und legen Sie den Ausführungszeitplan fest.
Alternativ können Sie die Ausführung entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen.
Während der Ausführung führt Dataform SQL-Abfragen in BigQuery aus und folgt dabei der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für alle Analysezwecke in BigQuery verwenden.
Optionen für die Ausführungskonfiguration
Wenn Sie eine bestimmte Gruppe Ihrer SQL-Workflow-Objekte ausführen möchten, können Sie den ausgewählten Dateien Dataform-Ausführungs-Tags hinzufügen. Wenn Sie die Ausführung manuell auslösen, können Sie nur die Dateien mit einem ausgewählten Tag ausführen.
Standardmäßig führt Dataform Ihren SQL-Workflow mit den in der Datei dataform.json
definierten Ausführungseinstellungen aus.
Sie können diese Ausführungseinstellungen mit Kompilierungsüberschreibungen überschreiben.
Mit Überschreibungen von Arbeitsbereichskompilierungen können Sie Arbeitsbereiche in isolierte Ausführungsumgebungen verwandeln. Wenn Sie die Ausführung also manuell in einem Arbeitsbereich auslösen, führt Dataform die Ausgabe an einem isolierten Speicherort in BigQuery aus.
Wenn Sie ein einzelnes Kompilierungsergebnis mit Kompilierungsüberschreibungen erstellen und ausführen möchten, können Sie Anfragen mit der Dataform API übergeben.
Mit Release-Konfigurationen können Sie Kompilierungsüberschreibungen für Ihr gesamtes Repository sowie die Häufigkeit des Erstellens von Kompilierungsergebnissen mit den angewendeten Einstellungen konfigurieren.
Weitere Informationen zum Konfigurieren der Kompilierung und des Codelebenszyklus in Dataform finden Sie unter Einführung in den Codelebenszyklus in Dataform.
Nächste Schritte
- Informationen zum Deklarieren einer Datenquelle finden Sie unter Datenquelle deklarieren.
- Informationen zum Deklarieren von Abhängigkeiten, um Beziehungen zwischen Objekten in Ihrem SQL-Workflow zu definieren, finden Sie unter Abhängigkeiten deklarieren.
- Informationen zum Definieren benutzerdefinierter SQL-Vorgänge finden Sie unter Benutzerdefinierte SQL-Vorgänge hinzufügen.
- Informationen zum Wiederverwenden von Variablen und Funktionen in Ihrem SQL-Workflow mit Includes finden Sie unter Code in einem einzelnen Repository mit Includes wiederverwenden.