In diesem Dokument erfahren Sie mehr über Repositories in Dataform und wie Sie ein neues Repository erstellen.
Dataform-Repositories
Jedes Dataform-Repository enthält eine Sammlung von SQLX- und JavaScript-Dateien, aus denen Ihr Workflow besteht, sowie Dataform-Konfigurationsdateien und ‑pakete. Sie interagieren mit dem Inhalt Ihres Repositorys in einem Entwicklungs-Arbeitsbereich.
In Dataform werden Ihre Repositories auf der Dataform-Seite in alphabetischer Reihenfolge der Repository-IDs angezeigt. Sie können sie sortieren und filtern.
Rufen Sie in der Google Cloud Console die Seite Dataform auf, um Ihre Repositories aufzurufen.
Jedes Dataform-Repository ist mit einem Dienstkonto verknüpft. Sie können ein Dienstkonto auswählen, wenn Sie ein Repository erstellen, oder es später bearbeiten.
Standardmäßig verwendet Dataform ein Dienstkonto, das von Ihrer Projektnummer abgeleitet ist und das folgende Format hat:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
In Dataform werden Änderungen mit Git aufgezeichnet und Dateiversionen verwaltet. Jedem Dataform-Repository entspricht ein Git-Repository. Nachdem Sie ein Dataform-Repository erstellt haben, können Sie es mit einem Remote-GitHub-, GitLab- oder Bitbucket-Repository verbinden.
In einem Dataform-Repository speichert Dataform den Repository-Code. In einem verbundenen Repository wird der Repository-Code im Repository des Drittanbieters gespeichert. Dataform interagiert mit dem Repository des Drittanbieters, damit Sie den Inhalt in einem Dataform-Entwicklungsarbeitsbereich bearbeiten und ausführen können.
Eine Dataform-Repository-Seite besteht aus den folgenden Komponenten:
- Tab „Entwicklungsbereiche“
- Enthält die im Repository erstellten Entwicklungsarbeitsbereiche.
- Tab „Releasekonfigurationen“
- Hier können Sie Releases prüfen, erstellen, bearbeiten und löschen.
- Tab „Protokolle zur Workflowausführung“
- Zeigt Dataform-Workflow-Ausführungslogs an.
- Tab „Workflowkonfigurationen“
- Hier können Sie Workflowkonfigurationen prüfen, erstellen, bearbeiten und löschen.
- Tab „Einstellungen“
- Zeigt den Namen und Speicherort des Repositorys an. Bei einem Repository, das mit einem Drittanbieter-Git-Repository verbunden ist, werden die Repository-Quelle des Drittanbieters, der Standardzweigname und das geheime Token angezeigt. Hier werden die Schaltflächen zum Verbinden des Repositories mit einem Drittanbieter-Git-Repository und zum Bearbeiten der Git-Verbindung angezeigt.
- Schaltfläche „Entwicklungsarbeitsbereich erstellen“
- Sie können damit einen Entwicklungsarbeitsbereich erstellen.
Nachdem Sie einen Entwicklungsarbeitsbereich erstellt und initialisiert haben, können Sie die Datei mit den Workflow-Einstellungen bearbeiten, um die folgenden Dataform-Einstellungen Ihres Repositorys zu konfigurieren:
- Die Standarddatenbank (Google Cloud Projekt-ID).
- Das Standardschema (BigQuery-Dataset-ID).
- Der Standardspeicherort in BigQuery.
- Das Standardschema (BigQuery-Dataset-ID) für Behauptungen.
- Das Lager, das auf
bigquery
gesetzt sein muss. - Benutzerdefinierte Variablen, die dem Projektcode während der Kompilierung zur Verfügung gestellt werden.
Weitere Informationen zu Dataform-Repository-Einstellungen finden Sie unter IProjectConfig in der Dataform-Core-Referenz.
Repository-Einstellungen
Wenn Sie ein Dataform-Repository erstellen, müssen Sie die folgenden Repository-Einstellungen festlegen:
- Repository-ID
- Eine eindeutige ID des Repositorys. IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
- Region
Dataform-Region zum Speichern des Repositorys und seines Inhalts.
Diese Speicherregion kann von der Verarbeitungsregion abweichen, in der Dataform Ihren Code verarbeitet und die Ausgabe der Ausführungen speichert. Standardmäßig ist die Verarbeitungsregion auf die Standardregion Ihres BigQuery-Datasets festgelegt. Sie können die Verarbeitungsregion in der Datei mit den Workflow-Einstellungen bearbeiten, nachdem Sie das Repository erstellt haben. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren.
- Dienstkonto
Das mit dem Repository verknüpfte Dienstkonto. Sie können das standardmäßige Dataform-Dienstkonto, ein Dienstkonto auswählen, das mit Ihrem Google Cloud-Projekt verknüpft ist, oder ein anderes Dienstkonto manuell eingeben. Standardmäßig verwendet Dataform ein Dienstkonto, das von Ihrer Projektnummer abgeleitet ist und das folgende Format hat:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform verwendet das Standarddienstkonto für alle Repository-Vorgänge. Sie können ein anderes Dienstkonto zum Ausführen von Workflows in Ihrem Repository verwenden. Das Standarddienstkonto wird jedoch weiterhin für alle anderen Repository-Vorgänge verwendet.
- Verschlüsselung
Verschlüsselungsmethode für das Repository. Sie können die Standardverschlüsselung, einen eindeutigen vom Kunden verwalteten Cloud KMS-Verschlüsselungsschlüssel oder einen standardmäßigen Dataform-CMEK-Schlüssel verwenden. Weitere Informationen zur Verwendung von vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEK) in Dataform finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.
Nachdem Sie ein Repository erstellt haben, können Sie es mit GitHub oder GitLab verbinden.
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- Wenn Sie die CMEK-Verschlüsselung für das Repository verwenden möchten, aktivieren Sie die CMEK-Verschlüsselung von Dataform-Repositories.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Admin (roles/dataform.admin
) für Repositories zuzuweisen, damit Sie die Berechtigungen erhalten, die Sie zum Erstellen und Löschen eines Repositories benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie ein anderes Dienstkonto als das standardmäßige Dataform-Dienstkonto verwenden möchten, gewähren Sie Zugriff auf das benutzerdefinierte Dienstkonto.
Nachdem Sie ein Dataform-Repository erstellt haben, erhalten Sie von Dataform automatisch die Rolle „Dataform Admin“ für dieses Repository.
Repository erstellen
So erstellen Sie ein Dataform-Repository:
Öffnen Sie in der Google Cloud Console die Seite Dataform.
Klicken Sie auf Repository erstellen.
Geben Sie auf der Seite Repository erstellen im Feld Repository-ID eine eindeutige ID ein.
IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
Wählen Sie in der Drop-down-Liste Region eine Dataform-Region zum Speichern des Repositories und seines Inhalts aus. Wählen Sie die Dataform-Region aus, die Ihrem Standort am nächsten ist.
Eine Liste der verfügbaren Dataform-Regionen finden Sie unter Standorte. Die Repository-Region muss nicht mit dem Speicherort Ihrer BigQuery-Datasets übereinstimmen.
In der Datei
workflow_settings.yaml
können Sie die Verarbeitungsregion festlegen, in der Dataform Ihren Code verarbeitet und die Ausgabe der Ausführungen speichert. Die Verarbeitungsregion muss mit dem Speicherort Ihrer BigQuery-Datasets übereinstimmen, aber nicht mit der Repository-Region. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren.Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.
Im Drop-down-Menü können Sie das Standarddienstkonto von Dataform oder ein beliebiges Dienstkonto auswählen, das mit Ihrem Google Cloud-Projekt verknüpft ist und auf das Sie Zugriff haben. Benutzerdefinierte Dienstkonten werden nur für die Workflowausführung verwendet. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.
- Optional: Wenn Sie ein Dienstkonto auswählen möchten, das nicht im Drop-down-Menü angezeigt wird, klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
Konfigurieren Sie den ausgewählten Verschlüsselungsmechanismus für das Repository:
.CMEK-Standardschlüssel
In Dataform wird das Kästchen KMS-Standardschlüssel verwenden angezeigt und standardmäßig ausgewählt.
- Wenn Sie das Repository mit dem standardmäßigen CMEK-Schlüssel von Dataform verschlüsseln möchten, lassen Sie das Kästchen KMS-Standardschlüssel verwenden angeklickt.
Eindeutiger CMEK-Schlüssel
So verschlüsseln Sie das Repository mit einem eindeutigen CMEK-Schlüssel:
- Wenn das Kästchen KMS-Standardschlüssel verwenden standardmäßig angeklickt ist, deaktivieren Sie es.
- Wählen Sie im Abschnitt Verschlüsselung die Option Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) aus.
- Wählen Sie im Drop-down-Menü Vom Kunden verwalteten Schlüssel auswählen einen eindeutigen CMEK-Schlüssel aus.
Verschlüsselung inaktiver Daten
- Wenn Sie die Standardverschlüsselung verwenden möchten, wählen Sie im Abschnitt Verschlüsselung die Option Google-managed encryption key aus.
Klicken Sie auf Erstellen und dann auf Fertig.
Dienstkonto bearbeiten
Sie können einem Dataform-Repository ein benutzerdefiniertes Dienstkonto für die Workflowausführung zuweisen. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.
So bearbeiten Sie das Dienstkonto für ein Dataform-Repository:
Öffnen Sie in der Google Cloud Console die Seite Dataform.
Wählen Sie ein Repository aus und klicken Sie auf Einstellungen.
Klicken Sie neben dem Feld Dienstkonto auf
Dienstkonto bearbeiten.Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.
Im Drop-down-Menü können Sie das Standarddienstkonto von Dataform oder ein beliebiges Dienstkonto auswählen, das mit Ihrem Google Cloud-Projekt verknüpft ist und auf das Sie Zugriff haben.
- Optional: Wenn Sie ein Dienstkonto auswählen möchten, das nicht im Drop-down-Menü angezeigt wird, klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
Klicken Sie auf Speichern.
Ein Repository löschen
So löschen Sie ein Repository und seinen Inhalt:
Öffnen Sie in der Google Cloud Console die Seite Dataform.
Klicken Sie neben dem Repository, das Sie löschen möchten, auf das Dreipunkt-Menü
und dann auf Löschen.Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.
Klicken Sie auf Löschen.
Nächste Schritte
- Informationen zum Verbinden eines Dataform-Repositorys mit einem Git-Repository eines Drittanbieters finden Sie unter Verbindung zu einem Git-Repository eines Drittanbieters herstellen.
- Weitere Informationen dazu, wie sich die Repository-Größe auf die Entwicklung in Dataform auswirkt, finden Sie unter Repository-Größe – Übersicht.
- Weitere Informationen zum Aufteilen eines Repositories in Dataform finden Sie unter Einführung in das Aufteilen von Repositories.
- Informationen zum Konfigurieren der Verarbeitungseinstellungen für Dataform finden Sie unter Dataform-Einstellungen konfigurieren.
- Informationen zum Erstellen und Initialisieren eines Arbeitsbereichs finden Sie unter Arbeitsbereich erstellen.