SQL-Workflow in Dataform erstellen und ausführen
In dieser Kurzanleitung werden Sie durch den folgenden Prozess in Dataform geführt, um einen SQL-Workflow zu erstellen und in BigQuery auszuführen:
- Erstellen Sie ein Dataform-Repository.
- Dataform-Entwicklungsarbeitsbereich erstellen und initialisieren
- Datenansicht erstellen
- Erstellen Sie eine Tabelle.
- Dataform Zugriff auf BigQuery gewähren
- Führen Sie den erstellten Workflow aus.
- Ausführungslogs in Dataform ansehen
- Erstellen Sie Assets bereinigen
Hinweise
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
BigQuery and Dataform APIs aktivieren.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
BigQuery and Dataform APIs aktivieren.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, damit Sie die Berechtigungen erhalten, die Sie zum Ausführen aller Aufgaben in dieser Anleitung benötigen:
-
Dataform Admin (
roles/dataform.admin
) für Repositories -
Dataform Editor (
roles/dataform.editor
) für Arbeitsbereiche und WorkflowInvocations
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Dataform-Repository erstellen
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
Repository erstellen.Führen Sie auf der Seite Repository erstellen die folgenden Schritte aus:
Geben Sie im Feld Repository-ID den Wert
quickstart-repository
ein.Wählen Sie in der Liste Region
europe-west4
aus.Klicken Sie auf Erstellen.
Entwicklungsarbeitsbereich für Dataform erstellen und initialisieren
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
quickstart-repository
.Klicken Sie auf
Entwicklungsarbeitsbereich erstellen.Führen Sie im Fenster Entwicklungsarbeitsbereich erstellen die folgenden Schritte aus:
Geben Sie im Feld Workspace-ID den Wert
quickstart-workspace
ein.Klicken Sie auf Erstellen.
Die Seite des Entwicklungsarbeitsbereichs wird angezeigt.
Klicken Sie auf Arbeitsbereich initialisieren.
Ansicht erstellen
In den folgenden Abschnitten definieren Sie eine Ansicht, die Sie später als Datenquelle für eine Tabelle verwenden.
SQLX-Datei zur Definition einer Ansicht erstellen
Klicken Sie im Bereich Dateien neben
definitions/
auf das -Menü Mehr.Klicken Sie auf Datei erstellen.
Führen Sie im Bereich Neue Datei erstellen die folgenden Schritte aus:
Geben Sie im Feld Dateipfad hinzufügen
definitions/quickstart-source.sqlx
ein.Klicken Sie auf Datei erstellen.
Datenansicht definieren
Maximieren Sie im Bereich Dateien den Ordner „Definitionen“.
Klicken Sie auf
definitions/quickstart-source.sqlx
.Geben Sie in die Datei das folgende Code-Snippet ein:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Klicken Sie auf Format.
Tabelle erstellen
In den folgenden Abschnitten definieren Sie den Tabellentyp in einer SQLX-Datei und schreiben dann eine SELECT
-Anweisung, um die Tabellenstruktur in derselben Datei zu definieren.
SQLX-Datei für Tabellendefinition erstellen
Klicken Sie im Bereich Dateien neben
definitions/
auf das -Menü Mehr und wählen Sie Datei erstellen aus.Geben Sie im Feld Dateipfad hinzufügen den Wert
definitions/quickstart-table.sqlx
ein.Klicken Sie auf Datei erstellen.
Tabellentyp, -struktur und -abhängigkeiten definieren
Maximieren Sie im Bereich Files (Dateien) das Verzeichnis
definitions/
.Wählen Sie
quickstart-table.sqlx
aus und geben Sie den folgenden Tabellentyp und dieSELECT
-Anweisung ein:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Klicken Sie auf Format.
Nach der Definition des Tabellentyps gibt Dataform einen Abfragevalidierungsfehler aus, da quickstart-source
in BigQuery noch nicht vorhanden ist. Dieser Fehler wird behoben, wenn Sie den SQL-Workflow weiter unten in dieser Anleitung ausführen.
Dataform Zugriff auf BigQuery gewähren
Zum Ausführen von Workflows in BigQuery muss das Dataform-Dienstkonto die folgenden erforderlichen Rollen haben:
- BigQuery-Dateneditor für Projekte, für die Dataform Lese- und Schreibzugriff benötigt. Sie enthalten in der Regel das Projekt, in dem Ihr Dataform-Repository gehostet wird.
- BigQuery Data Viewer für Projekte, auf die Dataform Lesezugriff benötigt.
- BigQuery Job User in dem Projekt, in dem Ihr Dataform-Repository gehostet wird.
So weisen Sie diese Rollen zu:
Öffnen Sie in der Google Cloud Console die Seite IAM.
Klicken Sie auf Hinzufügen.
Geben Sie im Feld Neue Hauptkonten Ihre Dataform-Dienstkonto-ID ein.
Wählen Sie in der Drop-down-Liste Rolle auswählen die Rolle BigQuery-Jobnutzer aus.
Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie in der Drop-down-Liste Rolle auswählen die Rolle BigQuery-Datenbearbeiter aus.
Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie in der Drop-down-Liste Rolle auswählen die Rolle BigQuery-Datenbetrachter aus.
Klicken Sie auf Speichern.
Workflow ausführen
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf der Seite
quickstart-workspace
auf Ausführung starten.Klicken Sie auf Alle Aktionen.
Klicken Sie im Bereich Ausführen auf Ausführung starten.
Dataform verwendet die Standard-Repository-Einstellungen, um den Inhalt Ihres Workflows in einem BigQuery-Dataset namens
dataform
zu erstellen.
Ausführungslogs in Dataform aufrufen
Klicken Sie auf der Seite
quickstart-repository
auf Workflow-Ausführungslogs.Klicken Sie auf die letzte Ausführung, um deren Details aufzurufen.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.
In BigQuery erstelltes Dataset löschen
Löschen Sie das Dataset dataform
, um Gebühren für BigQuery-Assets zu vermeiden.
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und wählen Sie
dataform
aus.Klicken Sie auf das Menü
Aktionen und wählen Sie Löschen aus.Geben Sie im Dialogfeld Dataset löschen
delete
in das Feld ein und klicken Sie dann auf Löschen.
Entwicklungsarbeitsbereich für Dataform löschen
Das Erstellen des Dataform-Entwicklungsarbeitsbereichs ist kostenlos. Zum Löschen des Entwicklungsarbeitsbereichs können Sie jedoch die folgenden Schritte ausführen:
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie auf
quickstart-repository
.Klicken Sie auf dem Tab Entwicklungsarbeitsbereiche auf das
-Menü Mehr nebenquickstart-workspace
und wählen Sie Löschen aus.Klicken Sie zur Bestätigung auf Löschen.
Dataform-Repository löschen
Für das Erstellen eines Dataform-Repositorys fallen keine Kosten an. Zum Löschen des Repositorys können Sie jedoch die folgenden Schritte ausführen:
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Klicken Sie neben
quickstart-repository
auf das -Menü Mehr und wählen Sie dann Löschen aus.Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.
Klicken Sie zur Bestätigung auf Löschen.
Nächste Schritte
Weitere Informationen zu Dataform finden Sie in der Dataform-Übersicht.
Weitere Informationen zu Dataform-Features finden Sie unter Dataform-Features – Übersicht.
Weitere Informationen zu Dataform Core finden Sie unter Übersicht über Dataform Core.
Informationen zum Überschreiben der Dataform-Standardeinstellungen Ihres Repositorys finden Sie unter Dataform-Einstellungen konfigurieren.
Weitere Informationen zum Verwalten von Tabellen in BigQuery finden Sie unter Tabellen verwalten.