Dataform-Funktionen – Übersicht

Dataform ist ein serverloser Dienst für Fachkräfte für Datenanalyse, Tabellen, inkrementelle Tabellen oder Ansichten in BigQuery bereitstellen. Dataform bietet eine Webumgebung für die Entwicklung von SQL-Workflows, mit GitHub, GitLab, Azure DevOps Services und Bitbucket, Continuous Integration, Continuous Deployment und Workflowausführung.

Repositories

Jedes Dataform-Projekt wird in einem Repository gespeichert. Ein Dataform-Repository enthält eine Sammlung von JSON-Konfigurationsdateien, SQLX-Dateien und JavaScript-Dateien.

Dataform-Repositories enthalten die folgenden Dateitypen:

  • Konfigurationsdateien

    Mit Config JSON- oder SQLX-Dateien können Sie Ihre SQL-Workflows konfigurieren. Sie enthalten allgemeine Konfigurations-, Ausführungspläne oder Schemas für neue Tabellen und Ansichten erstellen.

  • Definitionen

    Definitionen sind SQLX- und JavaScript-Dateien, mit denen neue Tabellen, Ansichten, und zusätzliche SQL-Vorgänge für die Ausführung in BigQuery.

  • Umfasst

    Einschließen sind JavaScript-Dateien, in denen Variablen und Funktionen für Ihr Projekt definieren.

Jedes Dataform-Repository ist mit einem Dienstkonto verbunden. Sie können Beim Erstellen eines Repositorys ein Dienstkonto auswählen oder bearbeiten Sie das Dienstkonto .

Standardmäßig verwendet Dataform ein Dienstkonto, das aus Ihrem Projektnummer im folgenden Format:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Versionsverwaltung

Dataform nutzt das Git-Versionskontrollsystem, um jede Änderung an Projektdateien und zur Verwaltung von Dateiversionen.

Jedes Dataform-Repository kann ein eigenes Git-Repository verwalten oder mit einem externen Git-Repository von Drittanbietern verbunden. Sie können Dataform-Repository mit einem GitHub-, GitLab-, Azure DevOps Services- oder Bitbucket-Repository verbinden

Nutzer Versionsverwaltung für ihren SQL-Workflowcode in Dataform-Arbeitsbereichen. In einem Dataform-Arbeitsbereich können Sie Änderungen aus dem Repository abrufen, einen Commit durchführen und per Push in die Git-Zweige des Repositorys übertragen.

Workflowentwicklung

In Dataform ändern Sie Dateien und Verzeichnisse innerhalb eines Entwicklungsarbeitsbereich. Ein Entwicklungsarbeitsbereich ist eine virtuelle, bearbeitbare Kopie eines Git-Repositorys. Dataform behält den Status zwischen Sitzungen im Entwicklungsarbeitsbereich.

In einem Entwicklungsarbeitsbereich können Sie SQL-Workflowaktionen entwickeln. mit Dataform Core SQLX und JavaScript oder ausschließlich mit JavaScript. Sie können Ihren Dataform Core- oder JavaScript-Code automatisch formatieren.

Jedes Element eines Dataform-SQL-Workflows, z. B. eine Tabelle oder Assertion, entspricht einer Aktion, die Dataform in BigQuery ausführt. Eine Tabellendefinitionsdatei ist beispielsweise eine Aktion zum Erstellen oder Aktualisieren der Tabelle in BigQuery.

In einem Dataform-Arbeitsbereich können Sie Folgendes entwickeln: SQL-Workflowaktionen:

Sie können JavaScript verwenden, um Ihren Dataform-SQL-Workflowcode wiederzuverwenden auf folgende Arten:

Dataform kompiliert den SQL-Workflowcode in Ihrem Arbeitsbereich in Echtzeit. In Ihrem Arbeitsbereich können Sie die kompilierten Abfragen und Details zu Aktionen ansehen in jeder Datei. Sie können den Kompilierungsstatus und die Fehler auch in in der bearbeiteten Datei oder im Repository gespeichert.

Um die Ausgabe einer kompilierten SQL-Abfrage zu testen, bevor Sie sie ausführen an: Mit BigQuery können Sie Vorschau der Abfrage ausführen in Ihrem Dataform-Arbeitsbereich.

Um den gesamten in Ihrem Arbeitsbereich definierten SQL-Workflow zu überprüfen, können Sie ein interaktives kompiliertes Diagramm ansehen der alle kompilierten Aktionen in Ihrem SQL-Workflow und die Beziehungen zwischen ihnen anzeigt.

Workflow-Kompilierung

Dataform verwendet Standardeinstellungen für die Kompilierung, die in der Workflow-Einstellungsdatei konfiguriert wurden, um den SQL-Workflow zu kompilieren in Ihrem Arbeitsbereich in Echtzeit zu SQL, und ein Kompilierungsergebnis des Arbeitsbereichs erstellen.

Sie können die Kompilierungseinstellungen überschreiben, um anzupassen, wie Dataform Ihren SQL-Workflow zu einem Kompilierungsergebnis kompiliert.

Mit Überschreibungen von Arbeitsbereichskompilierungen Sie können Kompilierungsüberschreibungen für alle Arbeitsbereiche in einem Repository konfigurieren. Sie können dynamische Arbeitsbereichsüberschreibungen festlegen, um Kompilierungsergebnisse benutzerdefiniert zu erstellen für jeden Arbeitsbereich, wodurch die Arbeitsbereiche in isolierte Entwicklungsumgebungen umgewandelt werden. Sie können das Google Cloud-Projekt überschreiben, in dem Dataform ausgeführt wird eines Arbeitsbereichs, fügen den Namen aller kompilierten Tabellen ein Präfix hinzu, und fügen dem Standardschema ein Suffix hinzu.

Mit Releasekonfigurationen können Sie Folgendes tun: Vorlagen der Kompilierungseinstellungen konfigurieren, um Kompilierungsergebnisse eines Dataform-Repositorys. In einem Release Konfiguration haben, können Sie das Google Cloud-Projekt überschreiben, in dem Dataform führt die Kompilierungsergebnisse aus. für alle kompilierten Tabellen, fügen dem Standardschema ein Suffix hinzu, und Kompilierungsvariablen hinzufügen. Sie können auch die Häufigkeit der das Erstellen von Kompilierungsergebnissen. Zum Planen von Ausführungen von Kompilierungsergebnissen die in einer ausgewählten Releasekonfiguration erstellt wurden, Erstellen Sie eine Workflowkonfiguration.

Workflowausführung

Während der Workflowausführung führt Dataform die Kompilierungsergebnisse SQL-Workflows zum Erstellen oder Aktualisieren von Assets in BigQuery

Um die in Ihrem SQL-Workflow definierten Tabellen und Ansichten in Mit BigQuery können Sie Workflowausführung manuell starten in einem Entwicklungsarbeitsbereich arbeiten oder Ausführungen planen.

Sie können Dataform-Ausführungen in BigQuery in der auf folgende Arten:

Zum Debuggen von Fehlern können Sie Ausführungen auf folgende Arten überwachen:

Nächste Schritte