Dataform-Repository erstellen

In diesem Dokument erfahren Sie, wie Sie ein Repository erstellen und festlegen und bearbeiten. Dienstkonto und löschen ein Repository in Dataform.

Beim Erstellen eines Dataform-Repositorys müssen Sie Folgendes festlegen: Repository-Einstellungen:

Repository-ID
Eine eindeutige ID des Repositorys. IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
Region

Dataform-Region zum Speichern des Repositorys und seines Inhalts.

Diese Speicherregion kann von der Verarbeitungsregion abweichen, in der Dataform Ihren Code verarbeitet und die Ausgabe der Ausführungen speichert. Standardmäßig ist die Verarbeitungsregion auf Ihr BigQuery-Standard festgelegt. Dataset-Region. Sie können die Verarbeitungsregion in der Datei mit den Workflow-Einstellungen bearbeiten, nachdem Sie das Repository erstellt haben. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren.

Dienstkonto

Das mit dem Repository verknüpfte Dienstkonto. Sie können das standardmäßige Dataform-Dienstkonto, ein Dienstkonto auswählen, das mit Ihrem Google Cloud-Projekt verknüpft ist, oder ein anderes Dienstkonto manuell eingeben. Standardmäßig Dataform verwendet ein Dienstkonto, das von Ihrer Projektnummer in im folgenden Format:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform verwendet für alle Repositories das Standarddienstkonto Geschäftsabläufe. Sie können ein anderes Dienstkonto verwenden, um Workflows auszuführen in Ihrem Repository, aber das Standarddienstkonto wird weiterhin für alle andere Repository-Vorgänge.

Verschlüsselung

Verschlüsselungsmethode für das Repository. Sie können die default encryption (Standardverschlüsselung), eine eindeutige vom Kunden verwalteten Cloud KMS-Verschlüsselungsschlüssel, oder einen Dataform-CMEK-Standardschlüssel. Weitere Informationen zur Verwendung vom Kunden verwaltete Verschlüsselungsschlüssel (CMEKs) in Dataform finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.

Nachdem Sie ein Repository erstellt haben, können Sie es mit GitHub oder GitLab verbinden.

Hinweis

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  8. Wenn Sie die CMEK-Verschlüsselung für das Repository verwenden möchten, aktivieren Sie die CMEK-Verschlüsselung von Dataform-Repositories.

Erforderliche Rollen

Um die Berechtigungen zu erhalten, die Sie zum Erstellen und Löschen eines Repositorys benötigen, bitten Sie Ihren Administrator, Ihnen IAM-Rolle Dataform Admin (roles/dataform.admin) für Repositories. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Wenn Sie ein anderes Dienstkonto als das standardmäßige Dataform-Dienstkonto verwenden möchten, gewähren Sie Zugriff auf das benutzerdefinierte Dienstkonto.

Repository erstellen

So erstellen Sie ein Dataform-Repository:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Klicken Sie auf Repository erstellen.

  3. Geben Sie auf der Seite Repository erstellen im Feld Repository-ID eine eindeutige ID ein.

    IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.

  4. Wählen Sie in der Drop-down-Liste Region eine Dataform-Region zum Speichern des Repositories und seines Inhalts aus. Wählen Sie die Dataform-Region aus, die Ihrem Standort am nächsten ist.

    Eine Liste der verfügbaren Dataform-Regionen finden Sie unter Standorte: Die Repository-Region enthält keine um den Speicherort Ihrer BigQuery-Datasets abzugleichen.

    In der Datei workflow_settings.yaml können Sie die Verarbeitungsregion festlegen, in der Dataform verarbeitet Ihren Code und speichert die Ausgabe von Ausführungen. Die Verarbeitungsregion muss mit dem Standort von BigQuery übereinstimmen Datasets, muss aber nicht mit der Repository-Region übereinstimmen. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren

  5. Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.

    Im Drop-down-Menü können Sie das Dataform-Standarddienstkonto auswählen oder ein mit Ihrem Google Cloud-Projekt verknüpftes Dienstkonto, auf die Sie zugreifen können. Benutzerdefinierte Dienstkonten werden nur für die Workflowausführung verwendet. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.

    1. Optional: So wählen Sie ein Dienstkonto aus, das nicht im Drop-down-Menü angezeigt wird: Klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
  6. Konfigurieren Sie den ausgewählten Verschlüsselungsmechanismus für das Repository:

    Standard-CMEK-Schlüssel

    Dataform zeigt die Use the default KMS key (KMS-Standardschlüssel verwenden) ist standardmäßig ausgewählt.

    • Wenn Sie das Repository mit dem standardmäßigen Dataform-CMEK-Schlüssel verschlüsseln möchten, lassen Sie das Kästchen KMS-Standardschlüssel verwenden angeklickt.

    Eindeutiger CMEK-Schlüssel

    So verschlüsseln Sie das Repository mit einem eindeutigen CMEK-Schlüssel:

    1. Wenn das Kästchen Standard-KMS-Schlüssel verwenden standardmäßig ausgewählt ist, deaktivieren Sie das Kontrollkästchen.
    2. Wählen Sie im Abschnitt Verschlüsselung die Option Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) aus.
    3. Wählen Sie im Drop-down-Menü Vom Kunden verwalteten Schlüssel auswählen und wählen Sie einen eindeutigen CMEK-Schlüssel aus.

    Verschlüsselung inaktiver Daten

    • Wenn Sie die Standardverschlüsselung verwenden möchten, wählen Sie im Abschnitt Verschlüsselung die Option Von Google verwalteter Verschlüsselungsschlüssel aus.
  7. Klicken Sie auf Erstellen und dann auf Fertig.

Dienstkonto bearbeiten

Sie können ein benutzerdefiniertes Dienstkonto mit einem Dataform verknüpfen Repository für die Workflow-Ausführung. Alle anderen Repository-Vorgänge sind weiterhin vom Dataform-Standarddienstkonto ausgeführt.

So bearbeiten Sie das Dienstkonto für ein Dataform-Repository:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Wählen Sie ein Repository aus und klicken Sie dann auf Einstellungen.

  3. Klicken Sie neben dem Feld Dienstkonto auf Dienstkonto bearbeiten.

  4. Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.

    Im Drop-down-Menü können Sie das Dataform-Standarddienstkonto auswählen oder ein mit Ihrem Google Cloud-Projekt verknüpftes Dienstkonto, auf die Sie zugreifen können.

    1. Optional: Wenn Sie ein Dienstkonto auswählen möchten, das nicht im Drop-down-Menü angezeigt wird, klicken Sie auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
  5. Klicken Sie auf Speichern.

Ein Repository löschen

So löschen Sie ein Repository und seinen Inhalt:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Klicken Sie neben dem Repository, das Sie löschen möchten, auf das Mehr und wählen Sie Löschen aus.

  3. Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.

  4. Klicken Sie auf Löschen.

Nächste Schritte