Dataform-Repository erstellen

In diesem Dokument erfahren Sie, wie Sie ein Repository erstellen, das Repository-Dienstkonto festlegen und bearbeiten und ein Repository in Dataform löschen.

Wenn Sie ein Dataform-Repository erstellen, müssen Sie die folgenden Repository-Einstellungen festlegen:

Repository-ID
Eine eindeutige ID des Repositorys. IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.
Region

Dataform-Region zum Speichern des Repositorys und seines Inhalts.

Diese Speicherregion kann sich von der Verarbeitungsregion unterscheiden, in der Dataform Ihren Code verarbeitet und die Ausgabe von Ausführungen speichert. Standardmäßig ist die Verarbeitungsregion auf die Standardregion des BigQuery-Datasets festgelegt. Sie können den Verarbeitungsbereich in der Workflow-Einstellungsdatei bearbeiten, nachdem Sie das Repository erstellt haben. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren.

Dienstkonto

Mit dem Repository verknüpftes Dienstkonto. Sie können das Dataform-Standarddienstkonto oder ein mit Ihrem Google Cloud-Projekt verknüpftes Dienstkonto auswählen oder manuell ein anderes Dienstkonto eingeben. Standardmäßig verwendet Dataform ein Dienstkonto, das von Ihrer Projektnummer im folgenden Format abgeleitet wird:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform verwendet für alle Repository-Vorgänge das Standarddienstkonto. Sie können ein anderes Dienstkonto verwenden, um Workflows in Ihrem Repository auszuführen. Das Standarddienstkonto wird jedoch weiterhin für alle anderen Repository-Vorgänge verwendet.

Verschlüsselung

Verschlüsselungsmethode für das Repository. Sie können die Standardverschlüsselung oder einen vom Kunden verwalteten Cloud KMS-Verschlüsselungsschlüssel verwenden. Weitere Informationen zur Verwendung von vom Kunden verwalteten Verschlüsselungsschlüsseln (CMEKs) in Dataform finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel verwenden.

Nachdem Sie ein Repository erstellt haben, können Sie es mit GitHub oder GitLab verbinden.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. BigQuery and Dataform APIs aktivieren.

    Aktivieren Sie die APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. BigQuery and Dataform APIs aktivieren.

    Aktivieren Sie die APIs

  8. Wenn Sie die CMEK-Verschlüsselung für das Repository verwenden möchten, aktivieren Sie die CMEK-Verschlüsselung von Dataform-Repositories.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Admin (roles/dataform.admin) für Repositories zu gewähren, damit Sie die Berechtigungen erhalten, die Sie zum Erstellen und Löschen eines Repositorys benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Wenn Sie ein anderes Dienstkonto als das Dataform-Standarddienstkonto verwenden möchten, gewähren Sie Zugriff auf das benutzerdefinierte Dienstkonto.

Repository erstellen

So erstellen Sie ein Dataform-Repository:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Klicken Sie auf Repository erstellen.

  3. Geben Sie auf der Seite Repository erstellen im Feld Repository-ID eine eindeutige ID ein.

    IDs dürfen nur Ziffern, Buchstaben, Bindestriche und Unterstriche enthalten.

  4. Wählen Sie in der Drop-down-Liste Region eine Dataform-Region zum Speichern des Repositorys und seines Inhalts aus. Wählen Sie die Dataform-Region aus, die Ihrem Standort am nächsten liegt.

    Eine Liste der verfügbaren Dataform-Regionen finden Sie unter Standorte. Die Repository-Region muss nicht mit dem Speicherort Ihrer BigQuery-Datasets übereinstimmen.

    In der Datei workflow_settings.yaml können Sie die Verarbeitungsregion festlegen, in der Dataform Ihren Code verarbeitet und die Ausgabe von Ausführungen speichert. Die Verarbeitungsregion muss mit dem Speicherort Ihrer BigQuery-Datasets übereinstimmen, nicht aber mit der Repository-Region. Weitere Informationen finden Sie unter Dataform-Einstellungen konfigurieren.

  5. Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.

    Im Drop-down-Menü können Sie das Dataform-Standarddienstkonto oder ein anderes mit Ihrem Google Cloud-Projekt verknüpftes Dienstkonto auswählen, auf das Sie Zugriff haben. Beachten Sie, dass benutzerdefinierte Dienstkonten nur für die Workflowausführung verwendet werden. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.

    1. Optional: Klicken Sie zur Auswahl eines Dienstkontos, das nicht im Drop-down-Menü angezeigt wird, auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
  6. Wählen Sie im Abschnitt Verschlüsselung die Verschlüsselungsmethode für das Repository aus.

    1. Wenn Sie die Standardverschlüsselung verwenden möchten, wählen Sie die Option Von Google verwalteter Verschlüsselungsschlüssel aus.
    2. Wählen Sie die Option Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) aus, um einen CMEK zu verwenden.

      1. Wählen Sie im Drop-down-Menü Wählen Sie einen vom Kunden verwalteten Schlüssel aus einen CMEK-Schlüssel für das Repository aus.

    Weitere Informationen finden Sie unter Einschränkungen für Dataform-CMEKs.

  7. Klicken Sie auf Erstellen und dann auf Fertig.

Dienstkonto bearbeiten

Sie können ein benutzerdefiniertes Dienstkonto mit einem Dataform-Repository zur Workflowausführung verknüpfen. Alle anderen Repository-Vorgänge werden weiterhin vom Dataform-Standarddienstkonto ausgeführt.

So bearbeiten Sie das Dienstkonto für ein Dataform-Repository:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Wählen Sie ein Repository aus und klicken Sie dann auf Einstellungen.

  3. Klicken Sie neben dem Feld Dienstkonto auf Dienstkonto bearbeiten.

  4. Wählen Sie im Drop-down-Menü Dienstkonto ein Dienstkonto für das Repository aus.

    Im Drop-down-Menü können Sie das Dataform-Standarddienstkonto oder ein anderes mit Ihrem Google Cloud-Projekt verknüpftes Dienstkonto auswählen, auf das Sie Zugriff haben.

    1. Optional: Klicken Sie zur Auswahl eines Dienstkontos, das nicht im Drop-down-Menü angezeigt wird, auf Manuell eingeben und geben Sie eine Dienstkonto-ID ein.
  5. Klicken Sie auf Speichern.

Ein Repository löschen

So löschen Sie ein Repository und den gesamten Inhalt:

  1. Öffnen Sie in der Google Cloud Console die Seite Dataform.

    Zu Dataform

  2. Klicken Sie neben dem Repository, das Sie löschen möchten, auf das -Menü Mehr und wählen Sie Löschen aus.

  3. Geben Sie im Fenster Repository löschen den Namen des Repositorys ein, um das Löschen zu bestätigen.

  4. Klicken Sie auf Löschen.

Nächste Schritte