Von Legacy-Dataform migrieren

Legacy-Dataform wird am 26. Februar 2024 eingestellt. Danach können Sie nicht mehr auf Legacy-Projekte zugreifen. In diesem Dokument werden die Unterschiede zwischen dem Legacy-Dataform und Dataform in Google Cloud beschrieben. Außerdem erfahren Sie, wie Sie ein Legacy-Dataform-Projekt in Dataform in Google Cloud importieren.

Unterschiede zwischen Legacy-Dataform und Dataform in Google Cloud

Dataform ist ein serverloser Dienst, mit dem Datenanalysten Tabellen, inkrementelle Tabellen oder Ansichten in BigQuery entwickeln und bereitstellen können. Dataform bietet eine Webumgebung für die SQL-Workflow-Entwicklung, die Verbindung zu GitHub, GitLab, Bitbucket und Azure DevOps Services sowie kontinuierliche Integration, kontinuierliche Bereitstellung und Workflowausführung.

Dataform in Google Cloud unterscheidet sich in folgenden Punkten vom Legacy-Dataform:

  • Dataform in Google Cloud unterstützt die Verbindung von Dataform-Repositories mit Bitbucket-Repositories.
  • Die Zugriffssteuerung basiert auf IAM.
  • Die Konfiguration eines Limits für die Nebenläufigkeit von Abfragen (concurrentQueryLimit) in dataform.json wird entfernt.

    Im Legacy-Dataform wurde durch Gleichzeitigkeitslimits verhindert, dass Dataform zu viele Abfragen gleichzeitig an BigQuery sendete. Zum Verwalten der Nebenläufigkeit in Dataform in Google Cloud empfehlen wir, BigQuery-Abfragewarteschlangen zu aktivieren.

  • Legacy-Umgebungen werden durch Release-Konfigurationen ersetzt.

  • Legacy-Zeitpläne werden durch Workflowkonfigurationen ersetzt.

  • Workflowfehlerbenachrichtigungen werden in Cloud Logging konfiguriert.

  • Dataform in Google Cloud und das Legacy-Dataform verwenden unterschiedliche NPM-Versionen und verschiedene package-lock.json-Formate.

    Wenn Sie einen SQL-Workflow sowohl in Legacy-Dataform als auch in Dataform in Google Cloud entwickeln möchten, verwenden Sie für die Paketinstallation das Legacy-Format package-lock.json. Installieren Sie erst dann Pakete in Dataform in Google Cloud, wenn Sie vollständig zu Dataform in Google Cloud migriert sind.

Weitere Informationen zu den Features von Dataform in Google Cloud finden Sie unter Übersicht über Dataform-Features.

Legacy-Dataform-Features werden in Google Cloud derzeit nicht unterstützt

Die folgenden Features des Legacy-Dataform werden in Dataform in Google Cloud derzeit nicht unterstützt:

  • Manuelles Ausführen von Einheitentests.
  • Es wird in Entwicklungsarbeitsbereichen nach Dateiinhalten gesucht.

Diese Liste wird laufend aktualisiert, sobald neue Features von Dataform in Google Cloud veröffentlicht werden.

Bekannte Einschränkungen

Dataform in Google Cloud hat die folgenden bekannten Einschränkungen:

  • Dataform in Google Cloud wird in einer einfachen V8-Laufzeit ausgeführt und unterstützt keine zusätzlichen Funktionen und Module, die von Node.js bereitgestellt werden. Wenn Ihre vorhandene Codebasis Node.js-Module erfordert, müssen Sie diese Abhängigkeiten entfernen.

    Projekte ohne Namensfeld in package.json generieren bei jeder Installation von Paketen Unterschiede bei package-lock.json. Um dies zu vermeiden, müssen Sie in package.json eine name-Eigenschaft hinzufügen.

  • git+https:// URLs für Abhängigkeiten in package.json werden nicht unterstützt.

    Konvertieren Sie solche URLs in einfache https://-Archiv-URLs, z. B. git+https://github.com/dataform-co/dataform-segment.git#1.5 in https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. BigQuery and Dataform APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. BigQuery and Dataform APIs aktivieren.

    Aktivieren Sie die APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Admin (roles/dataform.admin) für Repositories zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Importieren eines Legacy-Projekts benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Legacy-Projekt importieren

So importieren Sie ein Legacy-Projekt in Dataform in Google Cloud in der Google Cloud Console:

  1. Sorgen Sie dafür, dass Ihr Dataform-Projekt in app.dataform.co mit GitHub oder GitLab verbunden ist.
  2. Rufen Sie in der Google Cloud Console die Seite Dataform auf.

    Zur Seite „Dataform“

  3. Erstellen Sie ein neues Repository.

  4. Verbinden Sie das Repository mit dem Remote-Git-Repository, in dem sich Ihr Legacy-Projekt befindet.

Importiertes Dataform-Projekt konfigurieren

So passen Sie Ihr Legacy-Projekt an Dataform in Google Cloud an:

  1. Rufen Sie in der Google Cloud Console die Seite Dataform auf.

    Zur Seite „Dataform“

  2. Wählen Sie Ihr Repository aus.

  3. Entwicklungsarbeitsbereich erstellen

  4. Rufen Sie den Entwicklungsarbeitsbereich auf.

  5. Fügen Sie in dataform.json den Parameter defaultLocation hinzu. Dieser Parameter wird von app.dataform.co ignoriert.

    "defaultLocation": "DATASET_LOCATION",
    

    Ersetzen Sie DATASET_LOCATION durch den Standardspeicherort Ihres BigQuery-Datasets, z. B. US, EU oder us-east1.

  6. Löschen Sie package-lock.json.

  7. Führen Sie in package.json die folgenden Schritte aus:

    1. Führen Sie ein Upgrade von @dataform/core auf 3.0.0-beta.2 oder höher aus.
    2. Fügen Sie einen Paketnamen im folgenden Format hinzu:

      {
          "name": "PACKAGE_NAME",
          "dependencies": {
              "@dataform/core": "^3.0.0-beta.2"
          }
      }
      

      Ersetzen Sie PACKAGE_NAME durch einen Namen für das Dataform-Paket, z. B. Ihren Projektnamen.

    3. Konvertieren Sie git+https://-URLs in package.json-Abhängigkeiten in einfache https://-Archiv-URLs.

      Konvertieren Sie beispielsweise git+https://github.com/dataform-co/dataform-segment.git#1.5 in https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

      Wenn Sie git+https://-URLs in vordefinierten Dataform-Paketen verwenden, lesen Sie die aktualisierte Installationsanleitung für diese Pakete auf den zugehörigen Release-Seiten, z. B. auf der Release-Seite für Dataform-Segmente.

  8. Konfigurieren Sie die BigQuery-Berechtigungen und Nutzerberechtigungen.

  9. Migrieren Sie Umgebungen von environments.json, um Konfigurationen zu veröffentlichen.

  10. Migrieren Sie Zeitpläne von environments.json zu Workflowkonfigurationen.

  11. Konfigurieren Sie Benachrichtigungen mit Cloud Logging.

Nächste Schritte