Übersicht über Dataform-Features

Dataform ist ein serverloser Dienst, mit dem Datenanalysten Tabellen, inkrementelle Tabellen oder Ansichten in BigQuery entwickeln und bereitstellen können. Dataform bietet eine Webumgebung für die SQL-Workflowentwicklung, die Verbindung mit GitHub, GitLab, Azure DevOps Services und Bitbucket sowie Continuous Integration, Continuous Deployment und Workflow-Ausführung.

Repositories

Jedes Dataform-Projekt wird in einem Repository gespeichert. Ein Dataform-Repository enthält eine Sammlung von JSON-Konfigurationsdateien, SQLX-Dateien und JavaScript-Dateien.

Dataform-Repositories enthalten die folgenden Dateitypen:

  • Konfigurationsdateien

    Mit Config JSON- oder SQLX-Dateien können Sie Ihre SQL-Workflows konfigurieren. Sie enthalten die allgemeine Konfiguration, Ausführungspläne oder das Schema zum Erstellen neuer Tabellen und Ansichten.

  • Definitionen

    Definitionen sind SQLX- und JavaScript-Dateien, mit denen neue Tabellen, Ansichten und zusätzliche SQL-Vorgänge definiert werden, die in BigQuery ausgeführt werden sollen.

  • Umfasst

    Einschließen sind JavaScript-Dateien, in denen Sie Variablen und Funktionen definieren können, die in Ihrem Projekt verwendet werden sollen.

Jedes Dataform-Repository ist mit einem Dienstkonto verbunden. Sie können ein Dienstkonto auswählen, wenn Sie ein Repository erstellen oder später das Dienstkonto bearbeiten.

Dataform verwendet standardmäßig ein Dienstkonto, das von Ihrer Projektnummer abgeleitet ist, im folgenden Format:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Versionsverwaltung

Dataform verwendet das Git-Versionskontrollsystem, um eine Aufzeichnung aller an Projektdateien vorgenommenen Änderungen und die Verwaltung von Dateiversionen zu erstellen.

Jedes Dataform-Repository kann ein eigenes Git-Repository verwalten oder mit einem Remote-Git-Repository eines Drittanbieters verbunden werden. Sie können ein Dataform-Repository mit einem GitHub-, GitLab-, Azure DevOps Services- oder Bitbucket-Repository verbinden.

Nutzer verwenden die Versionsverwaltung für ihren SQL-Workflowcode in Dataform-Arbeitsbereichen. In einem Dataform-Arbeitsbereich können Sie Änderungen aus dem Repository abrufen, einen Commit für alle oder ausgewählte Änderungen durchführen und sie per Push in Git-Zweige des Repositorys übertragen.

Workflowentwicklung

In Dataform nehmen Sie Änderungen an Dateien und Verzeichnissen innerhalb eines Entwicklungsarbeitsbereichs vor. Ein Entwicklungsarbeitsbereich ist eine virtuelle, bearbeitbare Kopie des Inhalts eines Git-Repositorys. Dataform behält den Status der Dateien in Ihrem Entwicklungsarbeitsbereich zwischen Sitzungen bei.

In einem Entwicklungsarbeitsbereich können Sie SQL-Workflowaktionen entwickeln, indem Sie Dataform Core mit SQLX und JavaScript oder ausschließlich mit JavaScript verwenden. Sie können Ihren Dataform Core- oder JavaScript-Code automatisch formatieren.

Jedes Element eines Dataform-SQL-Workflows, z. B. eine Tabelle oder Assertion, entspricht einer Aktion, die Dataform in BigQuery ausführt. Mit einer Tabellendefinitionsdatei wird beispielsweise die Tabelle in BigQuery erstellt oder aktualisiert.

In einem Dataform-Arbeitsbereich können Sie die folgenden SQL-Workflowaktionen entwickeln:

Sie können JavaScript verwenden, um Ihren Dataform-SQL-Workflowcode auf folgende Arten wiederzuverwenden:

Dataform kompiliert den SQL-Workflowcode in Ihrem Arbeitsbereich in Echtzeit. In Ihrem Arbeitsbereich können Sie die kompilierten Abfragen und Details zu Aktionen in jeder Datei ansehen. Sie können den Kompilierungsstatus und die Fehler auch in der bearbeiteten Datei oder im Repository ansehen.

Wenn Sie die Ausgabe einer kompilierten SQL-Abfrage testen möchten, bevor Sie sie in BigQuery ausführen, können Sie in Ihrem Dataform-Arbeitsbereich eine Vorschau der Abfrage ausführen.

Wenn Sie den gesamten in Ihrem Arbeitsbereich definierten SQL-Workflow untersuchen möchten, können Sie eine interaktive kompilierte Grafik anzeigen, die alle kompilierten Aktionen in Ihrem SQL-Workflow und die Beziehungen zwischen ihnen zeigt.

Workflowkompilierung

Dataform verwendet die in dataform.json konfigurierten Standardkompilierungseinstellungen, um den SQL-Workflowcode in Ihrem Arbeitsbereich in Echtzeit mit SQL zu kompilieren. Dabei wird ein Kompilierungsergebnis des Arbeitsbereichs erstellt.

Sie können die Kompilierungseinstellungen überschreiben, um anzupassen, wie Dataform Ihren SQL-Workflow zu einem Kompilierungsergebnis kompiliert.

Mit Kompilierungsüberschreibungen für Arbeitsbereiche können Sie Kompilierungsüberschreibungen für alle Arbeitsbereiche in einem Repository konfigurieren. Sie können dynamische Arbeitsbereichsüberschreibungen festlegen, um für jeden Arbeitsbereich benutzerdefinierte Kompilierungsergebnisse zu erstellen und Arbeitsbereiche in isolierte Entwicklungsumgebungen zu verwandeln. Sie können das Google Cloud-Projekt überschreiben, in dem Dataform den Inhalt eines Arbeitsbereichs ausführt, den Namen aller kompilierten Tabellen ein Präfix hinzufügen und dem Standardschema ein Suffix hinzufügen.

Mit Releasekonfigurationen können Sie Vorlagen mit Kompilierungseinstellungen konfigurieren, um Kompilierungsergebnisse eines Dataform-Repositorys zu erstellen. In einer Releasekonfiguration können Sie das Google Cloud-Projekt überschreiben, in dem Dataform Kompilierungsergebnisse ausführt, den Namen aller kompilierten Tabellen ein Präfix hinzufügen, dem Standardschema ein Suffix hinzufügen und Kompilierungsvariablen hinzufügen. Sie können auch die Häufigkeit festlegen, mit der Kompilierungsergebnisse erstellt werden. Wenn Sie die Ausführungen von Kompilierungsergebnissen planen möchten, die in einer ausgewählten Releasekonfiguration erstellt wurden, können Sie eine Workflowkonfiguration erstellen.

Workflowausführung

Während der Workflowausführung führt Dataform Kompilierungsergebnisse von SQL-Workflows aus, um Assets in BigQuery zu erstellen oder zu aktualisieren.

Wenn Sie die in Ihrem SQL-Workflow in BigQuery definierten Tabellen und Ansichten erstellen oder aktualisieren möchten, können Sie in einem Entwicklungsarbeitsbereich manuell eine Workflowausführung starten oder Ausführungen planen.

Sie können Dataform-Ausführungen in BigQuery auf folgende Arten planen:

Zum Debuggen von Fehlern können Sie Ausführungen auf folgende Arten überwachen:

Nächste Schritte